next up previous contents index
Nächste Seite: Produkte Aufwärts: Translation Memory in CAT Vorherige Seite: Layout-Information   Inhalt   Index


Evaluationkriterien

Es ist schwierig, Kriterien für den Vergleich von Translation Memory Systemen zu finden. Maßstab soll sicherlich sein, wie gut das Translation Memory dem Übersetzer hilft, seine Arbeit auszuführen. Die Güte der Hilfe kann an der Zeitersparnis2.11gemessen werden, wenn davon ausgegangen werden kann, dass die Übersetzungsqualität unverändert bleibt. Ansonsten muss die Qualität mit in die Bewertung einbezogen werden. Wenn die Übersetzungsqualität mit brücksichtigt wird, dann können Translation Memorys nicht nur untereinander, sondern auch mit anderen CAT Systemen verglichen werden. Des Weiteren wird häufig behauptet (vergleiche (, , Seite 119)), dass Translation Memorys die Übersetzungsqualität steigern, da sie die Konsistenz der Übersetzungen erhöhen. Andererseits könnte die Qualität auch durch Fehlübersetzungen leiden. (, , Abschnitt 9) weist darauf hin, dass die Benutzung eines Translation Memorys die Zahl der Nachbearbeitungszyklen reduzieren kann.

Der Aufwand, vergleichbare Texte unter gleichen Bedingungen zu übersetzen, ist sehr hoch. Trotz des Aufwands dürfte es schwierig sein, die Ergebnisse zu reproduzieren, da die gemessenen Werte von den Übersetzern abhängen, die für den Test eingesetzt werden. Man wird also möglichst einen anderen Weg suchen, um ein Translation Memory zu evaluieren.

Eine erste Vereinfachung wäre, dass man Sätze, für die das Translation Memory keinen Übersetzungsvorschlag unterbreitet, nicht vom Übersetzer bearbeiten läßt, sondern eine pauschale Dauer für die Übersetzungstätigkeit ansetzt, z.B. von 15 Sekunden je Wort. Ebenso muss der Übersetzer nicht bemüht werden, wenn ein Übersetzungsvorschlag korrigiert werden muss, der bereits von einem anderen Translation Memory zur gleichen Textstelle unterbreitet wurde. Hier kann die Dauer der erstmaligen Korrektur unterstellt werden.2.12 Im Falle von Exact-Matches wird häufig vereinfachend davon ausgegangen, dass die Übersetzungsvorschläge immer richtig und keine Nachbearbeitungen notwendig seien. Mögliche Ambiguitäten oder Kontextabhängigkeiten werden ignoriert. Eine wesentlich weitergehende Vereinfachung wäre, ganz auf die Messung der Übersetzungsdauer zu verzichten und diese nur abzuschätzen. () berichtet im Zusammenhang mit der Evaluation von MT Systemen, dass es üblich ist, die Übersetzungsvorschläge mit einer Musterübersetzung zu vergleichen (Seite 145-146). Diese Art der Evaluation bietet den Vorteil, dass kein Übersetzer benötigt wird, wenn Testtext und Musterübersetzung dem Referenzmaterial entnommen werden. Zwar geht es bei () um die Messung der Qualität der Übersetzung und nicht um die Dauer der Erstellung. Aber als verwendete Vergleichsmethoden werden selbst solche genannt, die die Anzahl der notwendigen Editierschritte zählen, um den Übersetzungsvorschlag in die Musterübersetzung zu überführen. Diese Zahl ist ein gutes Maß für die Dauer der Änderung. () benutzen ein solches maschinelles Translation Score, um verschiedene Systeme zu vergleichen.

Durch die direkte Bewertung der Übersetzungsvorschläge wird die Benutzerschnittstelle aus der Evaluation ausgeblendet. Das heißt, dass die Art, wie die Übersetzungsvorschläge dem Benutzer des Translation Memorys präsentiert werden, keine Rolle spielt. Beim Vergleich verschiedener Evaluationen muss man daher nicht nur berücksichtigen, welches Referenzmaterial und welcher Ausgangstext verwendet wurden, sondern ebenso prüfen, was genau evaluiert wurde.

Häufig gibt es gute Gründe, warum einzelne Komponenten ausgeblendet werden. Wer nur eine einzelne Komponente entwickelt, möchte sie mit den entsprechenden Komponenten anderer Systeme vergleichen. Für Translation Memorys können folgende Komponenten identifiziert werden:

Aus computerlinguistischer Sicht sind besonders die ersten beiden Komponenten interessant, da hier Methoden des Fachs im Vordergrund stehen. Dennoch bieten auch die anderen Komponenten Raum für computerlinguistische Anwendungen.

() nennt zur Evaluation der Übersetzungsvorschläge verschiendene Ähnlichkeitsmaße (vergleiche Abschnitt [*]) und die Bewertung durch Spezialisten (Seite 147-148). Beispielsweise bitten () fünf Übersetzer, alle Vorschläge in vier vorgegebene Nützlichkeitsklassen einzuteilen. In der Auswertung werden die Anzahlen je Klasse einfach summiert. Der Grad der Übereinstimmung der einzelnen Bewertungen wird nicht berechnet. Hierfür wäre die Kappa-Statistik geeignet. Eine leicht verständliche Einführung findet sich in (). Auch werden in einigen Arbeiten die Ergebnisse verschiedener, maschineller Bewertungen angegeben ohne die Unterschiede genauer zu untersuchen.

Ganz andere Evaluationkriterien, die die Bedürfnisse des beruflichen Übersetzers im Blick haben, werden in der Hausarbeit von () genannt. Die Autoren stützen sich dabei wesentlich auf die Empfehlungen der EAGLES-Kommission, die auch in () und () verwendet werden. Ebenfalls klar als Produktevaluation angelegt sind die Kriterien, die im ARG-Projekt2.13 ,,Computer-Assisted Translation for Irish`` zur Evaluation von vier Produkten benutzt werden. Die Arbeit von () konnte hier leider nicht mehr berücksichtigt werden.2.14



Fußnoten

... Zeitersparnis2.11
Für die Nützlichkeit im Berufsalltag spielen natürlich auch andere Faktoren eine Rolle, insbesondere die Akzeptanz des Systems. Diese können aber nur mit wesentlich höheren Aufwand evaluiert werden.
... werden.2.12
In beiden Fällen wird vereinfachend davon ausgegangen, dass die Sätze isoliert, also unabhängig vom Kontext übersetzt werden können.
... ARG-Projekt2.13
http://www.compapp.dcu.ie/~kkeogh/
... werden.2.14
Titel und Bibliographie sind vielversprechend.


Unterabschnitte
next up previous contents index
Nächste Seite: Produkte Aufwärts: Translation Memory in CAT Vorherige Seite: Layout-Information   Inhalt   Index
JWaGnER@CoMpUtING.Dcu.Ie