Eingabe löschen

Kopfbereich

Hauptnavigation

Neue Verfahren zu Domain Adaptation und konfidenten Vorhersagen ermöglichen das Digitalisieren echter Partituren

CAI-Forschende ermöglichen Smartphone-basierte Digitalisierung von realen Musikpartituren, indem sie das weltweit fortschrittlichste optische Musikerkennungssystem mit einem neuartigen, auf Deep Learning basierenden Domain Adaptation Verfahren sowie der Möglichkeit ausstatten, den eigenen Output bezüglicher seiner Güte einzuschätzen. Dies ermöglicht eine intuitive Benutzeroberfläche für zeitsparende Nachbearbeitung.

Die ScorePad AG hat eine Musikdigitalisierungs-Pipeline entwickelt, welche eine Vielzahl von Anwendungsmöglichkeiten bietet, von Digitalisierungsdiensten für große Notensammlungen wie z.B. Bibliotheken bis hin zur Versorgung einer benutzerfreundlichen App mit frischen und individuellen Inhalten, die von Musikschülern und professionellen Musikern gleichermaßen zum Üben und Aufführen von Musik allein und in Gruppen genutzt werden kann. Diese befreit von der Notwendigkeit zur Handhabung gedruckter Partituren, indem sie die Partituren in computerlesbarer Form (MusicXML) auf einem Tablet oder Computer anzeigt und bearbeitet lassen kann.

Diese Computerlesbarkeit digitalisierter Musik ermöglicht - im Gegensatz zur bloßen Anzeige gescannter Bilder - neuartige und stark nachgefragte Funktionen für die oben beschriebenen Anwendungsfälle wie z. B. Ensemblekoordination oder automatisches Umblättern für Orchestermusiker oder Musikanalysen von digitalen Notensammlungen durch wissenschaftliche Nutzer in Bibliotheken. Sie baut auf der realen Digitalisierung der Partituren durch das weltweit fortschrittlichste optische Musikerkennungssystem (OMR) auf, deren Fundament im KTI-Vorgängerprojekt "DeepScore" gelegt wurde und welches den Stand der Technik bei der Erkennung von Musiksymbolen weit übertraf.

Ziel des RealScore-Projekts war es, diese Musikdigitalisierungs-Pipeline zu ermöglichen, indem die Nutzung der Vorgängertechnologie, welche auf hochwertige (synthetische) Partituren als Input beschränkt war, auf reale Scans von Notenblättern ausgedehnt wurde. Solche Partituren lagen möglicherweise über einen längeren Zeitraum in der Notentasche eines Musikers und haben viele Proben gesehen. Der Umgang mit den daraus resultierenden Artefakten wie vergilbten Seiten, Flecken und Rissen erforderte Durchbrüche in der angewandten Forschung für die Symbolerkennung (um seltenere musikalische Symbole besser erkennen zu können, muss etwa die Technologie erweitert werden, um dynamisch geformte Symbole wie Bindebögen in beliebig gedrehten Winkeln erkennen zu können), für die Domain Adaptation (von perfekt erstellten Partitur-PDFs hin zu unsauberen Scans oder Fotos) und für die Einschätzung der eigenen Erkennungsqualität (um ein potenziell nicht perfektes Erkennungsergebnis mit bestimmten Farben zu markieren, um anzuzeigen, wo das System mit seinen Erkennungen gemäß den Ergebnissen des neuronalen Netzes wahrscheinlich richtig oder falsch liegt). Diese ehrgeizigen Ziele konnten von einem Forscherteam um den technischen Projektleiter Lukas Tuggener innerhalb der Computer Vision, Perception and Cognition Group von Prof. Thilo Stadelmann erreicht werden.

Die Resultate von Projekt RealScore sind zweierlei: (i) Durch die Umstellung der Pipeline auf ein S2A-Net-basiertes System mit der Fähigkeit zur Erkennung von Rotationen sowie die Entwicklung einer Reihe von Domain Adaptation Methoden, die auf (i.a) neuartiger Augmentation der Eingabedaten ("ScoreAug", siehe Abb. 2), welche künstliche Datenverschlechterung mit realer Abnutzung kombiniert, (i.b) domänenspezifischen Trainingsregimen der involvierten neuronale Netze sowie (i.c) einem Algorithmus für Adversarial Domain Adaptation (siehe Abb. 1) basieren, konnte die Erkennung von Musiksymbolen (MOR) auf verrauschten Daten um mehr als 50 % verbessert werden. (ii) Output mit Konfidenzwertung (siehe Abb. 3) wurde erreicht, indem sogenannte Snapshot-Ensembles zum ersten Mal erfolgreich und effizient an die S2A-Net-Architektur angepasst wurden, wodurch die durchschnittliche Präzision der MOR-Aufgabe um 4,6 Prozentpunkte verbessert und die anschließende manuelle Nachbearbeitung der Ergebnisse um den Faktor 3 beschleunigt werden konnte, und zwar durch eine benutzerspezifische und optimierte Digitalisierungs-Pipeline.

Die Trainingsdaten wurden als Open Research Data (ORD) veröffentlicht. Die finalen Modelle sind im produktiven Einsatz bei der ScorePad AG, Erlenbach, Schweiz.