Moving towards a national FAIR-compliant ecosystem of Federated Infrastructure for Language Data (FAIR-FI-LD)

Beschreibung

In den letzten 5-10 Jahren haben die Schweizer Hochschulen am Aufbau nationaler Infrastrukturen für Sprachdaten gearbeitet. Dazu gehören bisher die Linguistische Forschungsinfrastruktur (LiRI-UZH), die Swiss-AL Plattform für Angewandte Wissenschaften (ZHAW), ein nationales Repositorium für die Veröffentlichung und Langzeitarchivierung von Sprachdaten LaRS@SWISSUbase (UNIL, UZH) sowie verschiedene kleinere Tools und Dienste. Diese Einheiten sind jedoch nicht alle interoperabel, was das Potenzial für die Zusammenarbeit und die Wiederverwendung von Daten verringert. Darüber hinaus fehlt es in Bereichen wie der Interaktionslinguistik oder dem Zweitspracherwerb an einer geeigneten Infrastruktur.

Mit der Gründung des CLARIN-CH-Konsortiums im Jahr 2020 (9 Hochschulen und die SAGW) haben die Bemühungen der Hochschulen eine neue Richtung eingeschlagen: Gemeinsam soll ein FAIR-konformes, nachhaltiges und ausbaufähiges CLARIN-CH-Ökosystem aus föderierten Infrastrukturen aufgebaut werden, um den Bedürfnissen von Forschenden und Fachleuten, die Sprachdaten in der Schweiz und darüber hinaus nutzen, gerecht zu werden; ein Ökosystem, das auf nationaler und europäischer Ebene interoperabel sein muss. Das vorliegende Projekt zielt darauf ab, in Übereinstimmung mit der Schweizer ORD-Strategie wichtige Schritte auf dem Weg zu diesem mittel- und langfristigen Ziel zu verwirklichen, und zwar durch

Prototyping interoperabler zugrundeliegender Software unter Verwendung von NLP-Techniken und explorativen KI-Techniken,
harmonisierte Metadaten zwischen den bestehenden Schweizer Infrastrukturkomponenten und der europäischen CLARIN-Infrastruktur,
CLARIN federated content search (FCS), um jede Komponente der Infrastruktur abzufragen,
eine mehrsprachige FCS-Landingpage, die auf der CLARIN-CH-Website gehostet wird,
ein Frontend der VIAN-DH@LiRI-Umgebung zur Visualisierung, Abfrage und Analyse von multimodalen Talk-in-Interaction-Daten, das am USI gehostet wird,
die Erstellung von Dokumentationen und Schulungen zur Unterstützung der Nutzung der Infrastruktur und zur Information über rechtliche und ethische Fragen im Zusammenhang mit Sprachdaten im Kontext von Open Science
und durch die Planung der künftigen Zusammenarbeit mit weiteren Akteuren und der Zusammenstellung weiterer Tools und Dienste.