Machine translation literacy for academics
Pilotstudie zur linguistischen Evaluation der NMT-Übersetzbarkeit von Texten
Beschreibung
ZielsetzungDas Projekt untersucht das Potential von maschineller Übersetzung (NMT) für wissenschaftliche Texte (Abstracts, Papers usw.) zu Publikationszwecken.Ausgangslage und -hypotheseNMT wird oft vorgeworfen, dass Textkohäsion, (Terminologie) und "Hedging" (Heckenbegriffe) nicht zufriedenstellend übertragen werden. Dies könnte auch an syntaktischen Sprachunterschieden liegen. Dieses Projekt untersucht die syntaktischen Besonderheiten von Abstracts und überprüft, wie diese von gängigen, kostenlosen Übersetzungssystemen gehandhabt haben. Arbeitskorpus300 Abstracts von Dissertationen in deutscher Sprache (DE, CH, AT) sowie die Outputs von DeepL und Google Übersetzung in Englisch, morphosyntaktisch annotiert (Treetagger – TagAnt) und satzweise aliniert (AntConc & AntPConc).Methodisches Vorgehen: rekursiv-emergenter Ansatz1. Beobachtungen aus Vorstudien als Grundlage für Explorationen in AntConc und AntPConc.2. Ausarbeitung von potenziellen Problemkonstruktionen im Deutschen:a. Modalverben ("sollen und "können")b. Präsentativkonstruktionen X Verb Y(semantisches Subjekt)i. X Verb Y(Nebensatz als semantisches Subjekt), z.B. :"Überdies wird der Frage nachgegangen, ob die Übertragbarkeit der Inhaberaktie […]"ii. X Verb Y(Nominalphrase als semantisches Subjekt), z.B.: "Es liegen bioklastische, homogen strukturierten Wacke- bis Mudstones vor, deren Kalk-Mergel-Wechsellagerung auf einem „Verdünnungseffekt“ der Karbonatproduktion beruht."3. Qualitative Analyse (unter Einbeziehung von Sprachexperten für Englisch) der entsprechenden, von DeepL und Google Translate produzierten englischen Konstruktionen auf semantische Übereinstimmung / Syntaktische Idiomatizität / Ambiguität.4. Quantitative Auswertung, basierend auf der qualitativen AnalyseErkenntnisse1. Textkohäsion: "Dabei" und "So" am Satzanfang werden im NMT-Prozess überdurchschnittlich oft weggelassen, was dazu führt, dass die Linksverbindung ebenfalls weggelassen wird. Die gesamte Textkohäsion wird dadurch verringert.2. Hedging: "sollen" birgt in wissenschaftlichen Abstracts die Gefahr einer zweideutigen Übersetzung ins Englische. In ca. 50% der Fälle wird entweder eine zusätzliche Abschwächung der Aussage oder die Möglichkeit einer Fehlinterpretation festgestellt.3. Präsentativkonstruktionen: Sie werden mehrheitlich durch NMT so übersetzt, dass der Zieltext entweder nicht semantisch übereinstimmend, nicht idiomatisch oder nicht eindeutig ist.4. Formulaic speech: Je fester die Redewendungen sind, desto höher ist die Wahrscheinlichkeit, dass die NMT-Systeme einen korrekten, idiomatischen und eindeutigen Text generiert. Beispiel: erweiterte hedged performatives ("Zusammenfassend kann festgehalten werden, dass…") werden alle korrekt übersetzt.Diese Erkenntnisse gelten nur für die Korpora, die in dieser Studie verwendet wurden und ausschließlich wissenschaftliche Abstracts enthielten.
Eckdaten
Projektleitung
Projektstatus
abgeschlossen, 08/2020 - 01/2021
Institut/Zentrum
Institut für Übersetzen und Dolmetschen (IUED)
Drittmittelgeber
Kanton Zürich / Digitalisierungsinitiative DIZH