Er bringt dem Computer das Lesen bei
ZHAW-Mitarbeiter Fernando Benites gehört in Sachen Computerlinguistik zu den Besten seines Fachs. Dies stellt er auch an internationalen Wettbewerben unter Beweis. Als Teamplayer hat er jüngst drei Erfolge gefeiert.
Die immer grösser werdende Datenflut macht es zu einer Notwendigkeit, dass Computer selbständig lesen und verstehen lernen. Ein Beispiel: Pro Jahr werden weltweit rund 2,5 Millionen neue Patentanträge eingereicht. Bevor ein Antrag zur Beurteilung auf dem Schreibtisch eines entsprechenden Experten landet, muss er zunächst gelesen und in den passenden Themenbereich klassifiziert werden. Diese Vorarbeit soll künftig automatisiert erfolgen, wenn es nach Fernando Benites geht. Denn mit genau dieser Aufgabe hat er die diesjährige ALTA Challenge für sich entschieden. ALTA steht für Australasian Language Technology Association. Sie fördert die Forschung im Bereich Computerlinguistik unter anderem mit diesem Wettbewerb. «14 Teams aus aller Welt haben sich der Aufgabe angenommen, eine Software zu entwickeln, mit der sich Patente automatisch klassifizieren lassen», so Fernando Benites. Gemeinsam mit zwei weiteren Computerlinguisten aus Brasilien und Australien bildete er ein internationales Team – mit Erfolg. Allen Teams standen 5000 Patente als Trainingsdaten zur Verfügung. Sein Team ging noch einen Schritt weiter: «Wir haben unserem Algorithmus weitere 75'000 Patente zum Lernen gegeben. Da war effizientes Teamwork gefragt.» Als Gewinner sind die drei Computerlinguisten nun an den diesjährigen ALTA Workshop in Neuseeland eingeladen, um ihre Arbeit zu präsentieren.
Wettbewerbe mit InIT-Team
In Winterthur arbeitet Fernando Benites als wissenschaftlicher Mitarbeiter am ZHAW-Institut für angewandte Informationstechnologie (InIT). Seine Forschungsschwerpunkte sind maschinelles Lernen sowie Data und Text Mining. An Wettbewerben nimmt er nur nebenbei Teil. Bereits vor der ALTA Challenge hatte sich Fernando Benites mit weiteren Mitarbeitenden aus dem InIT sowie dem ZHAW Spin-off Spinningbytes zusammengeschlossen und bei zwei Wettbewerben erfolgreich abgeschnitten. «In einem Wettbewerb der Universität Zürich ging es darum, dass der Computer automatisch unterschiedliche Schweizer Dialekte aus Bern, Basel, Zürich und Luzern unterscheiden kann», so Benites. «Wir haben dafür mit 20'000 Sätzen gearbeitet.» Am Ende reichte es für den zweiten Platz. Die gleiche Platzierung erreichte er mit seiner Gruppe auch in Wien beim GermEval-Wettbewerb gegen 19 weitere Teams. Dort musste er dem Computer keine Dialekte beibringen, sondern sogenannte «Hatespeech» auf Deutsch erkennen lernen, um sie dann zu löschen. Am InIT unterstützt man solche Wettbewerbsteilnahmen mit der nötigen Infrastruktur. «Wenn sich unsere Mitarbeitenden auf internationaler Ebene in ihrem Fachgebiet auszeichnen können, ist das auch für das Institut ein Qualitätsmerkmal», so Mark Cieliebak, der den Forschungsbereich Text Analytics and Dialogue Systems leitet.
Bestimmte Muster in der Sprache erkennen
Ob Patentanträge sortieren, Dialekte erkennen oder Fluchworte löschen – das Vorgehen der Computerlinguisten ist grundsätzlich das gleiche: «Bei all diesen Aufgaben geht es darum, dass der Computer mithilfe von Algorithmen komplexe Sprachmuster in typischen Texten – sogenannte Trainingsdaten – erlernt, um sie später automatisch zu erkennen und weitere Texte einzuordnen», erklärt Benites. Bei den Patentanträgen sucht der Computer beispielsweise nach Fachausdrücken, um die Anträge in die korrekte Kategorie einzuteilen. Benites weiter: «Die Herausforderung liegt dann darin, wie sich ähnliche Kategorien – zum Beispiel Physik und Mechanik – in denen teilweise die gleichen Begriffe benutzt werden, voneinander unterscheiden lassen.» Bei den Dialekten gilt es entsprechend die Wörter oder die Aussprache zu identifizieren, die nur in einer Region vorkommen. Auch die Muster für Beleidigungen lassen sich mit bestimmten Deep Learning oder Machine Learning Methoden aus vielen Texten entnehmen und nutzbar machen, um beispielsweise in Foren Hasskommentare automatisch zu löschen. «In jedem Fall nimmt ein Computerprogramm auf diese Weise dem Menschen einiges an Arbeit ab, damit wir uns interessanteren und anspruchsvolleren Aufgaben widmen können», resümiert Benites.