Forschende der ZHAW ermöglichen KI das effektive Lesen von Musiknoten in der realen Welt
Der Nutzen von KI-gestützten Musiklesesystemen wird in der Praxis durch die unzureichende Datenqualität und die hohen Auswirkungen von falsch erkannten Symbolen erheblich beeinträchtigt. Forschende der ZHAW haben effektive Lösungen für diese Herausforderungen entwickelt, indem sie eine Kombination aus ausgeklügelten Datenanreicherungen, unüberwachter Domänenanpassung und Modell-Ensembling eingesetzt haben.
ScoreAug ist ein ausgeklügeltes Datenanreicherungsverfahren, das klassische Anreicherungen wie affine Transformationen, Unschärfe oder Salz- und Pfefferrauschen mit realem Rauschen kombiniert, um eine weitaus höhere Ähnlichkeit zwischen angereicherten synthetischen Daten und realen Daten zu erreichen (siehe Abbildung 1). Durch ScoreAug erhöht sich die Erkennungsleistung unserer neuronalen Netze von zuvor 36,0 % auf 73,3 %.
Keine KI ist perfekt und macht darum Fehler. Diese zu finden und zu korrigieren ist besonders mühsam bei geschriebener Musik, die auf jeder Seite Hunderte von Symbolen enthält. Robuste Vertrauensmasse für jede Vorhersage können helfen, dieses Problem zu lindern, indem sie die Aufmerksamkeit der Korrigierenden lenken (siehe Abbildung 2). Die vorgestellten Konfidenzmasse, die auf effizienten Snapshot-Ensembles (in Kombination mit ScoreAug) basieren, haben die Geschwindigkeit der nötigen menschlichen Korrektur im Vergleich zu einer bestehenden Basislösung um das Dreifache erhöht [1].
Die vollständigen Details aller genannten Methoden können in der folgenden wissenschaftlichen Veröffentlichung nachgelesen werden (in Englisch): Real World Music Object Recognition (https://stdm.github.io/downloads/papers/TISMIR_2023.pdf)
[1] Tuggener, L., Elezi, I., Schmidhuber, J., and Stadelmann, T. (2018b). Deep watershed detector for music object recognition. In 19th International Society for Music Information Retrieval Conference (ISMIR)