Beitrag über ScienceBenchmark auf der VLDB 2024 akzeptiert - The Major International Conference on Database Research
Der Beitrag ScienceBenchmark: A Complex Real-World Benchmark for Evaluating Natural Language to SQL Systems von Yi Zhang, Jan Deriu, George Katsogiannis-Meimarakis, Catherine Kosten, Georgia Koutrika, Kurt Stockinger wurde auf der VLDB 2024 (Very Large Databases) akzeptiert, die als eine der renommiertesten internationalen Konferenzen für Datenbankforschung gilt. In dem Beitrag wird ScienceBenchmark vorgestellt, ein komplexer Benchmark zur Bewertung von Systemen, die automatisch Fragen in natürlicher Sprache in die Datenbankabfragesprache SQL übersetzen. Derzeit basieren die meisten Ansätze auf grossen Sprachmodellen wie GPT4 von OpenAI.
Der Beitrag ist das Ergebnis einer Forschungszusammenarbeit zwischen ZHAW und Athena Research im Rahmen des von der Europäischen Kommission finanzierten INODE-Projekts. Der Beitrag kombiniert höchst anspruchsvolle Wissenschaftsbereiche wie Astrophysik und Krebsforschung und enthält Hunderte von Fragen in natürlicher Sprache gegen wissenschaftliche Datenbanken, die sowohl von Informatikern als auch von Fachexperten kuratiert wurden. Der Benchmark enthält auch synthetisch erzeugte natürliche Sprache/SQL-Paare, die auf der Technologie der generativen KI basieren.
Die Arbeit der Forschenden von ZHAW und Athena ermöglicht eine systematische Evaluation von generativen KI-Systemen zur Abfrage komplexer wissenschaftlicher Datenbanken in natürlicher Sprache - ein Wettlauf, bei dem sowohl grosse KI-Firmen als auch Universitäten und Forschungslabors konkurrieren. Der neu entwickelte Benchmark zeigt, dass das Problem der Übersetzung von natürlicher Sprache in eine Datenbankabfragesprache noch lange nicht gelöst ist und soll neue Forschungsanstrengungen anregen, dieses schwierige Problem anzugehen.