ZHAW-Forschende erhalten den diesjährigen SwissNLP Award
Jedes Jahr wählt die Swiss Association for Natural Language Processing (SwissNLP) ein Team, eine Organisation oder ein Projekt aus, das die Grenzen der Natürlichen Sprachverarbeitung in der Schweiz verschiebt. Im Jahr 2023 erhielt ein Team von Forschenden der ZHAW, FHNW und UZH diese prestigeträchtige Auszeichnung für die Erstellung des bisher grössten Sprachübersetzungskorpus für Schweizerdeutsch.
Die NLP-Forschung ist ein interdisziplinäres Gebiet und befasst sich mit der automatischen Verarbeitung von gesprochener und geschriebener Sprache durch Computer. Sie ist ein Teilgebiet der künstlichen Intelligenz (KI) und ermöglicht es, Texte oder Sprache zu analysieren, zu verstehen, zu übersetzen oder zu generieren. In der Schweiz fördert der Verein SwissNLP NLP, Computerlinguistik und Textanalyse, indem er Experten und Anwender aus Industrie und Wissenschaft zusammenbringt. Jedes Jahr organisiert SwissNLP die Konferenz SwissText, auf der NLP-Praktiker und -Forscher in Workshops, Präsentationen und Networking-Sessions die neuesten Trends und Herausforderungen diskutieren.
Der SwissNLP Award geht an...
Der SwissNLP Award ist ein Preis, der jährlich von SwissNLP an der SwissText-Konferenz verliehen wird. Er würdigt herausragende Initiativen, die NLP in der Schweiz voranbringen. Die Projekte können aus Forschung, Lehre, Industrie oder Gesellschaft stammen und müssen einen klaren Nutzen oder Mehrwert für die Schweizer NLP-Landschaft haben.
Der SwissNLP Award 2023 wurde an die Schöpfer des STT4SG-350-Korpus verliehen, dem bisher grössten Sprachübersetzungskorpus für Schweizerdeutsch. Die drei Hochschulen FHNW (Fachhochschule Nordwestschweiz), ZHAW (Zürcher Hochschule für Angewandte Wissenschaften) und UZH (Universität Zürich), die hinter dem Projekt stehen, haben ein ausgewogenes Korpus von fast 350 Stunden schweizerdeutscher Audioaufnahmen und den dazugehörigen standarddeutschen Texten gesammelt. Dieses Korpus wurde dann von seinen Schöpfern verwendet, um modernste Speech-to-Text-Systeme (STT) für schweizerdeutsche Dialekte zu trainieren.
Grösstes schweizerdeutsches Sprachkorpus
Das STT4SG-350-Korpus enthält 247'527 Audioaufnahmen in schweizerdeutschen Dialekten. Zu jeder Aufnahme gibt es ein Transkript in Standarddeutsch und Metadaten des Sprechers (Alter, Geschlecht, Dialektregion), insgesamt rund 42'000 Wörter. Der deutschsprachige Teil der Schweiz ist in 7 Dialektregionen unterteilt, und für jede Region gibt es etwa 45 Sprecher, was im Durchschnitt 49 Stunden pro Region ergibt.
Das Korpus wurde bereits verwendet, um Sprache-zu-Text-Systeme für jeden Dialekt zu trainieren, um synthetisches Schweizerdeutsch aus geschriebenem Text zu generieren (Text-zu-Sprache), um linguistische Merkmale verschiedener Dialekte zu analysieren und um ein Dialekt-Identifikationssystem aufzubauen, das bestimmt, woher der Dialekt eines Sprechers stammt. STT4SG-350 ist für Forschung und kommerzielle Zwecke verfügbar.
Mehr Informationen