Crowdsourcing für Schweizerdeutsches Speech-to-Text
Beschreibung
Die Verschriftlichung von gesprochenem Schweizerdeutsch (Speech-to-Text, STT) ist ein wichtiges Problem, das viele Firmen bei uns nachfragen. Anwendungen sind z.B. automatischer Kundensupport, Voice Assistants wie Siri, TV-Untertitelung, etc. Bisher existiert keine praxistaugliche Lösung, was vor allem daran liegt, dass es (fast) keine Daten gibt um STT-Modelle zu trainieren: typischerweise braucht es tausende Stunden Audio mit Transkripten, bislang sind nur 300h für Schweizerdeutsch verfügbar.In diesem Projekt sammeln wir solche Daten für alle Dialekte, indem wir mit Hilfe der Schweizer Bevölkerung in grossem Umfang Audio-Beispiele aufnehmen, basierend auf hochdeutschen Sätzen, die wir zur Verfügung stellen.Dafür nutzen wir eine Web-Applikation, die auf dem Mozilla CommonVoice-Framework basiert und für die Bedürfnisse des Projektes angepasst wird.
Eckdaten
Projektleitung
Projektteam
Projektstatus
abgeschlossen, 01/2021 - 06/2021
Institut/Zentrum
Institut für Informatik (InIT); Centre for Artificial Intelligence (CAI)
Drittmittelgeber
ZHAW digital / Digital Futures Fund