Crowdsourcing für Schweizerdeutsches Speech-to-Text

Beschreibung

Die Verschriftlichung von gesprochenem Schweizerdeutsch (Speech-to-Text, STT) ist ein wichtiges Problem, das viele Firmen bei uns nachfragen. Anwendungen sind z.B. automatischer Kundensupport, Voice Assistants wie Siri, TV-Untertitelung, etc. Bisher existiert keine praxistaugliche Lösung, was vor allem daran liegt, dass es (fast) keine Daten gibt um STT-Modelle zu trainieren: typischerweise braucht es tausende Stunden Audio mit Transkripten, bislang sind nur 300h für Schweizerdeutsch verfügbar.In diesem Projekt sammeln wir solche Daten für alle Dialekte, indem wir mit Hilfe der Schweizer Bevölkerung in grossem Umfang Audio-Beispiele aufnehmen, basierend auf hochdeutschen Sätzen, die wir zur Verfügung stellen.Dafür nutzen wir eine Web-Applikation, die auf dem Mozilla CommonVoice-Framework basiert und für die Bedürfnisse des Projektes angepasst wird.

Eckdaten

Projektleitung

Manuela Hürlimann

Projektteam

Malgorzata Anna Ulasik

Projektstatus

abgeschlossen, 01/2021 - 06/2021

Institut/Zentrum

Institut für Informatik (InIT); Centre for Artificial Intelligence (CAI)

Drittmittelgeber

ZHAW digital / Digital Futures Fund

Zurück