Der Aufwand, vergleichbare Texte unter gleichen Bedingungen zu übersetzen, ist sehr hoch. Trotz des Aufwands dürfte es schwierig sein, die Ergebnisse zu reproduzieren, da die gemessenen Werte von den Übersetzern abhängen, die für den Test eingesetzt werden. Man wird also möglichst einen anderen Weg suchen, um ein Translation Memory zu evaluieren.
Eine erste Vereinfachung wäre, dass man Sätze, für die das Translation Memory keinen Übersetzungsvorschlag unterbreitet, nicht vom Übersetzer bearbeiten läßt, sondern eine pauschale Dauer für die Übersetzungstätigkeit ansetzt, z.B. von 15 Sekunden je Wort. Ebenso muss der Übersetzer nicht bemüht werden, wenn ein Übersetzungsvorschlag korrigiert werden muss, der bereits von einem anderen Translation Memory zur gleichen Textstelle unterbreitet wurde. Hier kann die Dauer der erstmaligen Korrektur unterstellt werden.2.12 Im Falle von Exact-Matches wird häufig vereinfachend davon ausgegangen, dass die Übersetzungsvorschläge immer richtig und keine Nachbearbeitungen notwendig seien. Mögliche Ambiguitäten oder Kontextabhängigkeiten werden ignoriert. Eine wesentlich weitergehende Vereinfachung wäre, ganz auf die Messung der Übersetzungsdauer zu verzichten und diese nur abzuschätzen. () berichtet im Zusammenhang mit der Evaluation von MT Systemen, dass es üblich ist, die Übersetzungsvorschläge mit einer Musterübersetzung zu vergleichen (Seite 145-146). Diese Art der Evaluation bietet den Vorteil, dass kein Übersetzer benötigt wird, wenn Testtext und Musterübersetzung dem Referenzmaterial entnommen werden. Zwar geht es bei () um die Messung der Qualität der Übersetzung und nicht um die Dauer der Erstellung. Aber als verwendete Vergleichsmethoden werden selbst solche genannt, die die Anzahl der notwendigen Editierschritte zählen, um den Übersetzungsvorschlag in die Musterübersetzung zu überführen. Diese Zahl ist ein gutes Maß für die Dauer der Änderung. () benutzen ein solches maschinelles Translation Score, um verschiedene Systeme zu vergleichen.
Durch die direkte Bewertung der Übersetzungsvorschläge wird die Benutzerschnittstelle aus der Evaluation ausgeblendet. Das heißt, dass die Art, wie die Übersetzungsvorschläge dem Benutzer des Translation Memorys präsentiert werden, keine Rolle spielt. Beim Vergleich verschiedener Evaluationen muss man daher nicht nur berücksichtigen, welches Referenzmaterial und welcher Ausgangstext verwendet wurden, sondern ebenso prüfen, was genau evaluiert wurde.
Häufig gibt es gute Gründe, warum einzelne Komponenten ausgeblendet werden. Wer nur eine einzelne Komponente entwickelt, möchte sie mit den entsprechenden Komponenten anderer Systeme vergleichen. Für Translation Memorys können folgende Komponenten identifiziert werden:
() nennt zur Evaluation der
Übersetzungsvorschläge verschiendene Ähnlichkeitsmaße
(vergleiche Abschnitt
) und die Bewertung durch
Spezialisten (Seite 147-148).
Beispielsweise bitten () fünf Übersetzer, alle Vorschläge
in vier vorgegebene Nützlichkeitsklassen einzuteilen.
In der Auswertung werden die Anzahlen je Klasse einfach summiert.
Der
Grad der Übereinstimmung der einzelnen Bewertungen wird nicht berechnet.
Hierfür wäre die Kappa-Statistik
geeignet.
Eine leicht verständliche Einführung findet sich in
().
Auch werden in einigen Arbeiten die Ergebnisse verschiedener,
maschineller Bewertungen
angegeben ohne die Unterschiede genauer zu untersuchen.
Ganz andere Evaluationkriterien, die die Bedürfnisse des beruflichen Übersetzers im Blick haben, werden in der Hausarbeit von () genannt. Die Autoren stützen sich dabei wesentlich auf die Empfehlungen der EAGLES-Kommission, die auch in () und () verwendet werden. Ebenfalls klar als Produktevaluation angelegt sind die Kriterien, die im ARG-Projekt2.13 ,,Computer-Assisted Translation for Irish`` zur Evaluation von vier Produkten benutzt werden. Die Arbeit von () konnte hier leider nicht mehr berücksichtigt werden.2.14