Einsatz von Large Language Models zur Verbesserung von Speech-to-text Output (LLM4STT)

Im Projekt soll eruiert werden, wie man mit Hilfe von Large Language Modellen (LLM's) die Transkription von Audio in Text (Speech-to-Text, STT) verbessern kann. Dafür möchte man die Qualität und Zuverlässigkeit dieses Ansatzes analysieren.

Eckdaten

Kontakt

Beschreibung

Dieses Projekt zielt darauf ab, die Erkennung und Beseitigung von Fehlern in Textblöcken, die durch Spracherkennungssysteme (Speech-to-Text, STT) generiert werden, zu optimieren. Der Fokus liegt auf der Nutzung und Evaluierung von großen Sprachmodellen (Large Language Models, LLMs) in Kombination mit manuellen und automatisierten Ansätzen. Die wichtigsten Projektbestandteile sind:

Annotation von Fehlern durch Menschen: Zunächst erfolgt die manuelle Identifikation und Annotation von Fehlern in den STT-Textblöcken durch menschliche Experten. Diese annotierten Daten dienen als Grundlage für die Bewertung der Leistung der LLMs.
Pipeline-Implementierung mit LLMs: Es wird eine Pipeline entwickelt, die fünf verschiedene LLMs mit jeweils drei unterschiedlichen Eingabeaufforderungen einsetzt. Ziel ist es, Fehler in den STT-Texten zu identifizieren und zu beheben.
Manuelle Evaluierung der generierten Ausgaben: Die von den LLMs generierten Textblöcke werden schnell und effizient manuell geprüft. Dabei wird die Qualität der Fehlerkorrektur für jede Kombination aus. Modell und Eingabeaufforderung bewertet.
Latenz- und Leistungsanalyse: Für jedes Modell werden die mittlere, kürzeste und maximale Latenz gemessen. Dabei wird insbesondere untersucht, wie gut die Modelle Fehler in Echtzeit erkennen können, was für eine potenzielle Echtzeitanwendung von großer Bedeutung ist.
Auswahl der vielversprechendsten LLMs und Prompts: Basierend auf der Analyse der Qualität und der Latenz werden die drei vielversprechendsten Modelle und Eingabeaufforderungen für die weitere Evaluation ausgewählt.
Definition und Berechnung einer Bewertungsmetrik: Eine geeignete Metrik wird definiert, um die Qualität der von den LLMs generierten Blöcke strenger zu bewerten. Es werden Hilfstools implementiert, um diese Metrik zu berechnen. Die Berechnung erfolgt wahrscheinlich manuell für die ausgewählten LLMs und Prompts.
Erstellung eines Ergebnisberichts: Abschließend werden die Ergebnisse des Projekts in einem detaillierten Bericht zusammengefasst. Dieser enthält eine Bewertung der Modell-Performance, der Latenz sowie der Eignung der entwickelten Metrik.