Bachelorarbeit: Developing a Framework for Visual Corpus Exploration and Comparison of Machine and Deep Learning Algorithms
Ein handliches Werkzeug für Data Scientists
Wenn Datenforscher Texte eingehend analysieren oder klassifizieren wollen, ist ein grundlegendes Verständnis des Textkorpus unerlässlich. In ihrer Bachelorarbeit im Studiengang Informatik haben Linus Metzler und Nadina Siddiqui ein Werkzeug programmiert, das den ersten Schritt zur Textanalyse wesentlich erleichtert.
«Das Werkzeug liefert Nutzerinnen und Nutzern grafisch ansprechend aufbereitete Informationen.»
Nadina Siddiqui
Die Textkorpora, mit denen sich Data Scientists tagtäglich beschäftigen, sind gross: Das können zum Beispiel 30'000 Kundenbewertungen, 75'000 Tweets und 160'000 Kommentare sein. Wollen diese Unmengen an Text eingehender untersucht werden, brauchen die Wissenschaftlerinnen und Wissenschaftler erste Anhaltspunkte, worum es in den Texten geht, welche Themen häufiger, welche weniger häufig auftauchen, wo sich Themen überlappen oder wie lang die Texte im Durchschnitt sind. «Bislang», so berichtet Dozent Mark Cieliebak, «haben wir uns dazu einfach mal die ersten 50 Texte durchgelesen, um ein Gefühl für den Textkorpus zu kriegen.» Mit einem handlichen Werkzeug, das IT-Absolvent Linus Metzler und IT-Absolventin Nadina Siddiqui im Rahmen ihrer Bachelorarbeit programmiert haben, wird dieser erste Schritt in Richtung einer vertieften Textanalyse nun wesentlich einfacher.
Grafisch ansprechende Textinformationen
«Das Werkzeug umfasst zwei Module», sagt Absolvent Linus Metzler. «Das erste Modul verschafft einen ersten Überblick über den Textkorpus. Das zweite Modul erlaubt es, verschiedene Algorithmen miteinander zu vergleichen und so für die weitere Analyse den richtigen auszuwählen.» Anhand eines konkreten Beispiels erklärt seine Kommilitonin Nadina Saddiqui das erste Modul: «Wir haben uns Hasskommentare auf Wikipedia-Diskussionsseiten angeschaut. Die Daten, die wir verwendet haben, sind zuvor bereits manuell nach Textgattung klassifiziert worden: Obszönität, Beleidigung, Bedrohung und so weiter. Das Werkzeug liefert Nutzerinnen und Nutzern nun grafisch ansprechend aufbereitete Informationen darüber, wie viele Texte zum Beispiel in die Kategorie Bedrohung fallen, welche Wörter im gesamten Korpus oder in der Kategorie Obszönität besonders häufig vorkommen oder wie lang die Texte in der Regel sind.»
Wie viele Wörter, wie viele Sätze?
Die Frage der Textlänge – wie viele Wörter, wie viele Sätze ein einzelner Text umfasst – ist nicht so simpel, wie sie klingt. Denn was genau ein Wort und was ein Satz ist, dazu liefern verschiedene Algorithmen jeweils unterschiedliche Antworten. «Das ist so, weil grammatikalische oder orthografische Regeln im Web nicht immer eingehalten werden. Bei Wörtern machen vor allem Kombinationen mit Klammern, Bindestrichen, Schrägstrichen oder Auslassungspunkten Probleme», so Linus Metzler. Hinzu kommen moderne Erscheinungen wie Emojis oder Hashtags, die ebenfalls je nach Algorithmus unterschiedlich interpretiert werden. «Unser Werkzeug stellt die wichtigsten Unterschiede bei der Einteilung in Sätze und Wörter farblich codiert dar und erleichtert so die Wahl des richtigen Algorithmus», ergänzt Nadina Siddiqui.
Besonders schwierige Texte
Um den Vergleich von Algorithmen geht es auch im zweiten Modul des Werkzeugs: Es gruppiert die Texte eines Korpus danach, ob verschiedene Algorithmen in der Textklassifikation – zum Beispiel nach positiver, negativer oder neutraler Grundstimmung – übereinstimmen. «Das Modul zeigt den Userinnen und Usern dann jeweils Beispiele für Texte, denen alle Algorithmen die richtige Klassifikation zugewiesen haben, bei denen alle Algorithmen falsch lagen und schliesslich Texte, bei denen sich die Algorithmen nicht einig waren», erklärt Linus Metzler. Anwenderinnen und Anwender sehen so auf einen Blick, welche Arten von Texten besonders einfach oder besonders schwierig zu klassifizieren sind – oder welche Algorithmen besser mit einer bestimmten Art von Texten zurechtkommen. Dozent Mark Cieliebak ist überzeugt: «Das macht die Textanalyse viel einfacher – insbesondere für Personen ohne Programmierkenntnisse.»
<svg xmlns="http://www.w3.org/2000/svg" viewbox="0 0 256 256" class="iconpack phosphor phosphor-arrow-up-right-bold" fill="currentColor" role="img"><rect width="256" height="256" fill="none"></rect><line x1="64" y1="192" x2="192" y2="64" fill="none" stroke="currentColor" stroke-linecap="round" stroke-linejoin="round" stroke-width="24"></line><polyline points="88 64 192 64 192 168" fill="none" stroke="currentColor" stroke-linecap="round" stroke-linejoin="round" stroke-width="24"></polyline></svg>Bachelorstudium InformatikInstitut für angewandte Informationstechnologie (InIT)
Infotage und Anmeldeschluss Bachelorstudiengänge
Infoveranstaltungen
- Mittwoch, 22.01.2025 (Infoabend Informatikstudium)
- Samstag, 08.03.2025 (Infotag Bachelorstudium)
- Donnerstag, 10.04.2025 (Online-Infoabend Bachelorstudium)
Anmeldung zum Bachelorstudium
- Zur Anmeldung (Anmeldeschluss: 30.04.2025)