Maschinelle Übersetzung
Maschinelle Übersetzung (MÜ oder MT für engl. „machine translation“) bezeichnet die Übersetzung eines Textes aus der Ausgangs- (in der MÜ auch Quellsprache genannt) in die Zielsprache mit Hilfe eines Computerprogramms. MÜ ist ein Beispiel für künstliche Intelligenz im Computerzeitalter.
Während von Menschen erstellte Übersetzungen Teil der Angewandten Linguistik sind, ist MÜ in den Bereichen Informationstechnologie und Computerlinguistik angesiedelt. MÜ-Programme wurden sogar schon für die ersten computerähnlichen Maschinen in den 1940er-Jahren geschrieben.
Traum der Menschheit
Einer der ältesten Träume der Menschheit ist es, eine Sprache zu verstehen, ohne sie je vorher gelernt zu haben (vgl. Turmbau zu Babel, J. Bechers numerische „Interlingua“, Babel Fish, Pfingsten, Sciencefiction-Geschichten). Die Erfindung des Computers vereint mit dem Phänomen „Sprache“ als wissenschaftliche Disziplin hat zum ersten Mal konkrete Möglichkeiten geboten, um diesen Traum zu erfüllen.
Geschichte
Bis zu diesem Tag haben militärische Interessen die Entwicklung der MÜ entscheidend geprägt. Eines der ersten Projekte war ein Russisch-Englisches Übersetzungsprogramm für das US-Militär. Trotz seiner schlechten, laienhaften Qualität fand das Programm großen Anklang im US-Militär, das zum ersten Mal einen Eindruck vom Inhalt russischer Dokumente gewann, ohne einen Mittler einzusetzen (Dolmetscher und Übersetzer).
Der ALPAC-Bericht, der 1966 für das amerikanische Verteidigungsministerium erstellt wurde, bescheinigte die Unrealisierbarkeit der MÜ und brachte so mit einem Schlag die Forschung für 20 Jahre fast komplett zum Stillstand. Erst in den 80er-Jahren begannen Elektrokonzerne wie die Siemens AG („Metal“-Projekt) wieder mit den Arbeiten an der MÜ. Zur gleichen Zeit startete die japanische Regierung das „Fünfte-Generation-Projekt“, bei dem die MÜ vom Englischen ins Japanische zunächst auf der Grundlage der Programmiersprache „Prolog“ arbeitete. Die enge Zusammenarbeit von Universitäten, Elektrokonzernen und Regierung führte zu den weltweit ersten kommerziellen MÜ-Programmen für PC und beförderte Japan damit weltweit an die Spitze der MÜ-Forschung. In den 90er-Jahren wurde in Deutschland das Leitprojekt „Verbmobil“, gefördert durch das Bundesministerium für Bildung und Forschung, ins Leben gerufen. Sein Ziel war es, den gesprochenen Dialog in die Sprachpaare Deutsch-Englisch und Deutsch-Japanisch zu übertragen. Das Verbmobil-System sollte Spontansprache erkennen, den Eintrag analysieren, in eine Fremdsprache übersetzen, dann einen Satz bilden und ihn laut aussprechen.
Der „Dotcom Crash“, eine schwerwiegende Aktienmarkt-Krise in den Jahren 2000 und 2001, trieb viele kleine MÜ-Unternehmen in den Ruin. Heutzutage sind in der MÜ-Softwareindustrie nur noch ungefähr 10 bis 20 Firmen aktiv (viele Programme sind lizenziert, um so ihren Einsatz und etwaige Abwandlungen zu kontrollieren), was bedeutet, dass die MÜ-Forschung zum größten Teil an Universitäten stattfindet.
Derzeit machen MÜ-Anwendungen nur 1% des Gesamtertrages auf dem Übersetzungsmarkt aus.
Jedoch gibt es mehrere Gründe, die die Nachfrage nach MÜ-Anwendungen steigen lassen:
- Viele Texte sind heute digital verfügbar (und deshalb einfach mit dem Computer zu bearbeiten).
- Durch die Globalisierung ist die Übersetzung von immer mehr Texten in immer mehr Sprachen nötig (der Übersetzungsmarkt verdoppelt sich alle vier Jahre), während die Beliebtheit des Übersetzer- und Dolmetscherberufes weiter sinkt.
- Sprachen, die schwer zu erlernen sind, selten von Westeuropäern und Amerikanern gesprochen werden und deren Sprecher für ihren Teil selbst kaum westliche Sprachen beherrschen, werden immer wichtiger:
- Wichtig in der Wirtschaft: die ostasiatischen Sprachen Chinesisch, Koreanisch, Japanisch und Thai.
- Wichtig im militärischen Sektor: Sprachen in internationalen Krisenregionen, besonders die, in denen das US-Militär vertreten ist. 2003 gaben mehrere US-Softwareunternehmen Übersetzungsprogramme für Arabisch und Paschtu (Sprache in Afghanistan) heraus. Im selben Jahr rief die DARPA (Forschungsbehörde des US-Verteidigungsministeriums) einen Blind-Wettbewerb für das Erstellen eines Übersetzungsprogramms einer unbekannten Ausgangssprache aus.
Übersetzungsmethoden
Alle MÜ-Systeme benutzen bilinguale Wörterbücher und haben mindestens Module für die grammatischen Grundregeln. Trotzdem unterscheiden sich die individuellen Methoden beträchtlich.
Die wichtigsten MÜ-Methoden sind:
- Direkte MÜ. Die Wörter des Ausgangstextes werden einzeln und in derselben Reihenfolge in die Zielsprache übersetzt. Danach werden Wortstellung und Flexion den Regeln der Zielsprache angepasst. Dies ist die älteste und einfachste MT-Methode, welche die Grundlage für das oben erwähnte System des Sprachpaares Russisch-Englisch bildete.
- Transfer. Die Transfer-Methode ist die klassische MÜ-Methode und vollzieht sich in drei Schritten: Analyse, Transfer, Generierung. Der zweite Schritt gab dieser Methode ihren Namen. Zuerst wird die grammatische Struktur des Ausgangstextes analysiert, häufig in einer Baumstruktur. Von dieser Analyse wird abhängig von der gewählten Transfermethode eine semantische Struktur abgeleitet. Dann werden die Strukturen in die Zielsprache übertragen. Zuletzt wird der Zieltext generiert, indem aus diesen Strukturen noch einmal Sätze hinsichtlich der grammatischen Regeln gebildet werden.
- Interlingua. Die grammatische Information des Ausgangstextes wird zuerst in einer neutralen Zwischensprache oder „Interlingua“ ausgedrückt, von der dann die grammatische Information in der Zielsprache hergestellt wird. Die Interlingua-Methode ist nützlich, um komplexe Ausdrücke zu übersetzen. Beispiel: Man kann das deutsche „Wenn ich arbeiten würde, würde ich mir ein Auto kaufen“ nicht mit der Regel würde > would (*“If I would work, I would buy a car.“) übersetzen, weil im englischen if-Satz kein would erlaubt ist. „Interlingua“ würde die würde-Information als „irreales Konditional“ erkennen und den Satz je nach Kontext mit oder ohne would übersetzen.
- EBMT (steht für Example-Based Machine Translation, beispielbasierte MÜ). Das Kernstück des EBMT-Systems ist ein Übersetzungsspeicher, wo häufig wiederkehrende Sätze oder Phrasen mit der jeweiligen Übersetzung gespeichert werden. Es berechnet statistisch (über Methoden des Information Retrieval), wie sehr die vorhandenen Übersetzungseinträge dem jeweiligen Satz in der Ausgangssprache ähneln. Die Generierung der Übersetzung erfolgt, indem die Sätze, die sich am meisten ähneln, übersetzt und schließlich kombiniert werden.
- SBMT (steht für Statistics-Based Machine Translation, statistikbasierte MÜ). Vor der eigentlichen Übersetzung analysiert ein Programm einen sehr großen und umfassenden Korpus von bilingualen Texten (z.B. Regierungsagenden). Dieses Verfahren sorgt dafür, dass Wörter und grammatische Formen je nach Häufigkeit und inhaltlicher Nähe zueinander in der Ausgangs- und Zielsprache geordnet werden. Dadurch werden ein Wörterbuch sowie grammatische Regeln generiert und Texte auf dieser Basis übersetzt. SBMT ist in letzter Zeit sehr beliebt geworden, weil es keinerlei Wissen über die betreffenden Sprachen voraussetzt. Ein daraus folgender Vorteil von SBMT ist, dass im sprachwissenschaftlichen Rahmen noch nicht genau erklärte Regeln theoretisch erfasst werden können, indem „richtige“ Textauszüge analysiert werden. Die Übersetzungsqualität der SBMT ist allerdings um einiges schlechter als die von existierenden regelbasierten Systemen, teilweise weil die SBMT noch vergleichsweise neu ist. SBMT wird z.B. vom US-Verteidigungsministerium gern in Anspruch genommen, wenn es sich um Sprachen handelt, die schnell mittels eines MÜ-Systems übersetzt werden müssen und deshalb keine Zeit für die Regelerfassung durch Menschenhand bleibt.
- HAMT (steht für Human-Aided Machine Translation, MÜ mit menschlicher Hilfe). Hierbei übersetzt nicht der Computer allein das gesamte Dokument, sondern der Benutzer übersetzt mit oder vermeidet unklare, zweideutige oder komplizierte Konstruktionen (die sogenannte controlled language, „kontrollierte Sprache“). Dies kann im Voraus durch den Benutzer stattfinden, indem er z.B. lange Sätze verkürzt, oder durch Interaktion, wenn der Benutzer z.B. vom Programm aufgefordert wird, die beabsichtigte Bedeutung eines Wortes auszuwählen.
In der Praxis sind die meisten Systeme eine Mischung aus mehreren Methoden (dominierend sind hierbei Transfersysteme mit „Interlingua“- und EBMT-Elementen).
MAHT (Machine-Aided Human Translation, computergestützte Übersetzung) bedeutet, dass der Mensch übersetzt und der Computer währenddessen automatisch die Terminologie durch Nachschlagen im Wörterbuch prüft (automatic dictionary look-up) sowie die Übersetzung mit früheren Übersetzungen vergleicht (Übersetzungsspeicher). Die MAHT gilt nicht als maschinelle Übersetzung.
Qualität
Ergebnisse der MÜ-Programme sind oft unfreiwillig komisch. Der Effekt ist leicht festzustellen: Nehmen Sie einfach irgendeinen Text und geben Sie ihn in ein kostenloses Übersetzungsprogramm ein, um ihn in Ihre Muttersprache übersetzen zu lassen.
Wie kann man die Qualität einer MÜ evaluieren?
Anstatt sich des intuitiven und nicht überzeugenden Eindrucks „diese Übersetzung ist entsetzlich“ zu bedienen, benutzen MÜ-Forscher Skalen zur Evaluierung der Übersetzungsqualität. MÜ-Übersetzungen werden pro Satz evaluiert; die normierte Gesamtheit der Sätze ist die Qualität des ganzen Textes. In den meisten Fällen wird die Evaluation von einem Muttersprachler der Zielsprache vorgenommen und in Form eines Index ausgedrückt. In Japan wird oft eine 5-Punkte-Skala benutzt:
- 4 Punkte: Sehr verständlich, nahezu perfekt; keine offensichtlichen Fehler.
- 3 Punkte: Ein bis zwei inkorrekte Wörter; ansonsten verständlich.
- 2 Punkte: Möglich herauszufinden, was ursprünglich gemeint war.
- 1 Punkt: Der Satz gibt nicht die intendierte Bedeutung wieder (wenn überhaupt). Dies passiert teilweise oder völlig aufgrund von inkorrekter Übersetzung der Grammatik.
- 0 Punkte: Der Satz ergibt keinen Sinn; sieht aus wie eine zufällig zusammengewürfelte chaotische Wortanordnung.
Für lange Übersetzungen benutzen MÜ-Forscher auch automatische Evaluations-Algorithmen wie den BLEU-Score, der sich auch auf zugrundeliegende menschliche Urteilskraft stützt.
Zu hohe Erwartungen?
Ein anderes Problem bezüglich der MÜ sind möglicherweise die zu hohen Erwartungen an sie. Folglich erscheinen die momentanen Verbesserungen in der MÜ-Forschung als ungenügend. Eine der Bedingungen für eine funktionierende MÜ ist, dass der Ausgangstext verständlich ist und dass auch Menschen eine vollständig detailgetreue Übersetzung davon erstellen könnten. Wie kann von einem Computer erwartet werden, dass er Sprache, die von einem anderen Menschen nicht verstanden wird, versteht und dann auch übersetzt? Die meisten Linguisten nehmen an, dass das komplette Verstehen von Sprache ein vollständiges Begreifen von menschlicher Intelligenz voraussetzt. Einige sind auch der Meinung, dass ein perfektes MÜ-System die Prozesse des menschlichen Intellekts simulieren sollte. Wie oben erwähnt, ist einer der Vorteile von SBMT, dass dieses Problem umgangen wird, weil theoretisch auch bislang ungeklärte Regeln abgeleitet werden können.
Praktische Probleme
Für die oft ungenügende Qualität der MÜ gibt es auch handfeste und teilweise behebbare Ursachen:
- „Billigprogramme“. Viele beurteilen den Stand der MÜ nach kostenlosen MÜ-Programmen, die im Internet bei z.B. Yahoo! oder Google verfügbar sind. Das sind oft „abgespeckte“ und ältere Versionen von bestenfalls zahlungspflichtigen (und besseren) Programmen oder nur von schnellen (und qualitativ schlechten) Programmen.
- Benutzer verstehen die Ausgangssprache. Besonders bei Übersetzungen zwischen westlichen Sprachen versteht der Benutzer oft die Ausgangssprache bis zu einem gewissen Grad selbst und bemerkt deshalb Unstimmigkeiten leichter als jemand, der für das Verständnis ausschließlich von der Übersetzung abhängig ist.
- Sprachstil. Jede Sprache hat ihren eigenen Stil und dieser wiederum seine ganz besonderen Eigenheiten, die nicht von Linguisten beschrieben sind. MÜ-Systeme liefern besonders schlechte Ergebnisse, wenn sie Texte übersetzen, für die sie nicht ausgelegt sind. Das sind meistens literarische Texte, gesprochene Sprache oder gelegentlich technische Texte (z.B. die berühmt-berüchtigten maschinell übersetzten Bedienungsanleitungen aus Japan).
- Fehlende Interdisziplinarität. MÜ ist ein Bereich der Computerlinguistik, aber die meisten Forscher kommen nur aus einer der beiden Stammfachrichtungen in diesem Bereich – entweder aus der Computerwissenschaft oder der Linguistik – ohne ausreichendes Wissen über das jeweils andere Fachgebiet. Während die Linguisten oft Probleme haben, mit dem Programmieren zurechtzukommen, mangelt es den Computerlinguisten an der Bereitschaft, mit dem Phänomen „Sprache“ zu arbeiten. Aus diesem Grund bildet ein strukturalisiertes Sprachmodell, das die linguistischen Erkenntnisse der letzten 50 Jahre nicht berücksichtigt, die Basis der meisten MÜ-Anwendungen.
- Kein Austausch zwischen Industrie und Akademik. Kommerzielle MÜ-Unternehmen beschäftigen lieber reine Programmierer, die praktisches Wissen „vor Ort“ besitzen, als MÜ-Forscher von Universitäten, die den Eindruck machen, zu sehr auf unnötige Details fixiert zu sein.
- Zu kleine und/oder ungenaue Wörterbücher. Mit den Veränderungen in Gesellschaft und Wissenschaft vermehrt sich auch das Vokabular von Sprache jeden Tag enorm. Außerdem sind viele Wörter mehrdeutig (Homonyme), die nur durch eine Kontextanalyse differenziert werden können. Wörterbuchmängel, wie die im obigen Beispiel beim Sprachpaar Russisch-Deutsch, sind verantwortlich für einen überraschend großen Prozentsatz von qualitativ schlechten Übersetzungen. Die größeren MÜ-Programme haben Wörterbücher mit mehreren Millionen Einträgen und vielfältigen Bedeutungsunterschieden. Doch die detaillierte und fehlerfreie Zusammenstellung solch großer Wörterbücher für MÜ-Anwendungen durch Lexikographen birgt einfach einen zu großen Aufwand für kleine Firmen.
- Fehlende Transfer-Regeln. Viele grammatische Phänomene unterscheiden sich stark von Sprache zu Sprache oder sind gar nur in bestimmten Sprachen vorhanden. Um diese Probleme zu lösen, ist oft eine linguistische Erforschung notwendig; MÜ-Firmen wollen dies aufgrund der hohen Kosten natürlich vermeiden.
- Computerlinguistische Probleme. Die MÜ stößt auch auf viele Probleme, die ebenso bei anderen computerlinguistischen Programmen auftreten können, z.B. das Verstehen von enzyklopädischem Wissen.



