Machine Perception and Cognition Group | ZHAW School of Engineering

«KI ist DIE Schlüsseltechnologie des digitalen Wandels in allen Branchen und Sektoren und sie hat starke Auswirkungen auf unsere Gesellschaften. Darum leistet unsere Forschung wichtige Beiträge zu robusten und vertrauenswürdigen KI-Methoden, und wir vermitteln mit Begeisterung deren sichere Umsetzung und Anwendung.»

Prof. Dr. Thilo Stadelmann

Expertise

Mustererkennung mit Deep Learning
Maschinelle Wahrnehmung, Computer Vision und Sprechererkennung
Entwicklung neuronaler Systeme

Die Machine Perception and Cognition-Gruppe forscht über Mustererkennung und arbeitet an einer Vielzahl von Aufgaben mit Bild-, Ton- oder allgemein Signaldaten. Wir befassen uns mit der Methodik der tiefen neuronalen Netze (Deep Neural Networks) und des Reinforcement Learning, inspiriert durch biologisches Lernen. Jede unserer Aufgaben hat ihr eigenes Lernziel (z. B. Erkennung, Klassifizierung, Clustering, Segmentierung, Novelty Detection, Steuerung) und ihren eigenen Anwendungsfall (z. B. vorausschauende Instandhaltung (Predictive Maintenance), Sprechererkennung für Multimedia-Indizierung, Dokumentanalyse, optische Notenerkennung, Computer Vision für industrielle Qualitätskontrolle, automatisiertes maschinelles Lernen, Deep Reinforcement Learning für automatisierte Spiele oder Gebäudeleittechnik). Diese werfen ihrerseits ein Licht auf verschiedene Aspekte des Lernprozesses. Wir nutzen diese Erfahrungen, um allgemeinere KI-Systeme zu kreieren, die auf neuronalen Architekturen basieren.

Angebote

Einblick: Keynotes, Trainings
KI-Beratung: Workshops, Expertenunterstützung, Beratung, Technikfolgenabschätzung
Forschung und Entwicklung: kleine bis grosse Gemeinschaftsprojekte, Drittmittelforschung, studentische Projekte, praxiserprobte Prototypen

Team

Leitung

Prof. Dr. Thilo Stadelmann

+41 (0) 58 934 72 08
thilo.stadelmann@zhaw.ch

Projekte

Publikationen

Elezi, Ismail; Tuggener, Lukas; Pelillo, Marcello; Stadelmann, Thilo,

2018.

DeepScores and Deep Watershed Detection : current state and open issues [Paper].

In:

Proceedings of the 1st International Workshop on Reading Music Systems.

1st International Workshop on Reading Music Systems at ISMIR 2018, Paris, France, 20 September 2018.

Paris:

Society for Music Information Retrieval.

S. 13-14.

Verfügbar unter: https://doi.org/10.21256/zhaw-4777
Stadelmann, Thilo; Glinski-Haefeli, Sebastian; Gerber, Patrick; Dürr, Oliver,

2018.

Capturing suprasegmental features of a voice with RNNs for improved speaker clustering [Paper].

In:

Artificial Neural Networks in Pattern Recognition.

8th IAPR TC3 Workshop on Artificial Neural Networks in Pattern Recognition (ANNPR), Siena, Italy, 19-21 September 2018.

Springer.

S. 333-345.

Lecture Notes in Computer Science ; 11081.

Verfügbar unter: https://doi.org/10.1007/978-3-319-99978-4_26
Stadelmann, Thilo; Amirian, Mohammadreza; Arabaci, Ismail; Arnold, Marek; Duivesteijn, Gilbert François; Elezi, Ismail; Geiger, Melanie; Lörwald, Stefan; Meier, Benjamin Bruno; Rombach, Katharina; Tuggener, Lukas,

2018.

Deep learning in the wild [Paper].

In:

Artificial Neural Networks in Pattern Recognition.

8th IAPR TC3 Workshop on Artificial Neural Networks in Pattern Recognition (ANNPR), Siena, Italy, 19-21 September 2018.

Springer.

S. 17-38.

Lecture Notes in Computer Science ; 11081.

Verfügbar unter: https://doi.org/10.1007/978-3-319-99978-4_2
Tuggener, Lukas; Elezi, Ismail; Schmidhuber, Jürgen; Stadelmann, Thilo,

2018.

Deep watershed detector for music object recognition [Paper].

In:

Proceedings of the 19th International Society for Music Information Retrieval Conference.

19th International Society for Music Information Retrieval Conference, Paris, 23-27 September 2018.

Paris:

Society for Music Information Retrieval.

Verfügbar unter: https://doi.org/10.21256/zhaw-3760
Tuggener, Lukas; Elezi, Ismail; Schmidhuber, Jürgen; Pelillo, Marcello; Stadelmann, Thilo,

2018.

DeepScores : a dataset for segmentation, detection and classification of tiny objects [Paper].

In:

2018 24th International Conference on Pattern Recognition (ICPR).

24th International Conference on Pattern Recognition (ICPR 2018), Beijing, China, 20-28 August 2018.

IEEE.

S. 1-6.

Verfügbar unter: https://doi.org/10.1109/ICPR.2018.8545307

Sonstige Veröffentlichungen

Wann	Art	Titel
2023	Extended Abstract	Thilo Stadelmann. KI als Chance für die angewandten Wissenschaften im Wettbewerb der Hochschulen. Workshop (“Atelier”) at the Bürgenstock-Konferenz der Schweizer Fachhochschulen und Pädagogischen Hochschulen 2023, Luzern, Schweiz, 20. Januar 2023
2022	Extended Abstract	Christoph von der Malsburg, Benjamin F. Grewe, and Thilo Stadelmann. Making Sense of the Natural Environment. Proceedings of the KogWis 2022 - Understanding Minds Biannual Conference of the German Cognitive Science Society, Freiburg, Germany, September 5-7, 2022.
2022	Open Research Data	Felix M. Schmitt-Koopmann, Elaine M. Huang, Hans-Peter Hutter, Thilo Stadelmann, und Alireza Darvishy. FormulaNet: Ein Benchmark-Datensatz für die Erkennung mathematischer Formeln. Eine ungelöste Teilaufgabe der Dokumentenanalyse ist die Erkennung mathematischer Formeln (MFD). Forschungen von uns und anderen haben gezeigt, dass bestehende MFD-Datensätze mit Inline- und Display-Formel-Etiketten klein sind und eine unzureichende Etikettierungsqualität aufweisen. Es besteht daher ein dringender Bedarf an Datensätzen mit besserer Beschriftungsqualität für die zukünftige Forschung im Bereich MFD, da diese einen großen Einfluss auf die Leistung der darauf trainierten Modelle haben. Wir stellen eine fortschrittliche Etikettierungspipeline und einen neuen Datensatz namens FormulaNet vor. Mit über 45.000 Seiten ist FormulaNet unserer Meinung nach der größte MFD-Datensatz mit Inline-Formelbeschriftungen. Unser Datensatz soll bei der Bewältigung der MFD-Aufgabe helfen und kann die Entwicklung neuer Anwendungen ermöglichen, wie z. B. die Zugänglichkeit mathematischer Formeln in PDFs für sehbehinderte Benutzer von Bildschirmlesegeräten.
2020	Open Research Data	Lukas Tuggener, Yvan Putra Satyawan, Alexander Pacha, Jürgen Schmidhuber, and Thilo Stadelmann, DeepScoresV2. The DeepScoresV2 Dataset for Music Object Detection contains digitally rendered images of written sheet music, together with the corresponding ground truth to fit various types of machine learning models. A total of 151 Million different instances of music symbols, belonging to 135 different classes are annotated. The total Dataset contains 255,385 Images. For most researches, the dense version, containing 1714 of the most diverse and interesting images, is a good starting point.