Die Relevanz eines Übersetzungsvorschlags orientiert sich daran, wie sehr der Vorschlag dem Übersetzer hilft, d.h. welchen Effizienz- und Effektivitätsvorteilt er ihm bietet. Um die Relevanz abzuschätzen stehen dem Translation Memory primär der zu übersetzende Satz, die Fundstelle und die zugeordnete Übersetzung zur Verfügung. (Sekundäre Informationsquellen sind die alternativen Fundstellen, die gesamten im TM gespeicherten Korpora und sonstige Quellen wie z.B. Wörterbücher.) Wichtigstes und naheliegendstes Kriterium ist der Grad der Übereinstimmung der Fundstelle mit dem zu übersetzenden Satz. Sie wird mit einem Ähnlichkeitsmaß gemessen. Häufig sind diese Maße symmetrisch, d.h. die Richtung des Vergleichs spielt keine Rolle.
Ob ein Wort eingefügt oder gelöscht wird, hat natürlich unterschiedlichen Einfluss auf die Nützlichkeit der Übersetzung. Vermutlich ist es für den Übersetzer einfacher, ein Wort aus dem Übersetzungsvorschlag zu entfernen als eine passende Übersetzung für ein eingefügtes Wort suchen zu müssen. Die Auswirkungen der Änderungen können aber komplexer sein, so dass auch scheinbar einfache Fälle schwierigere Anpassungen erfordern. Es wäre sinnvoll, dies experimentell zu untersuchen, um ein asymmetrisches Ähnlichkeitsmaß entwerfen zu können, das auf die spezielle Problemstellung des Translation Memorys eingeht.
Denkbar wäre auch, Kriterien in die Bewertung der Relevanz einfließen zu lassen, die die Übersetzung isoliert betrachten, wie die Komplexität der grammatischen Struktur oder den lexikalischen Schwierigkeitsgrad, den z.B. () aus der Häufigkeit der auftretenden Wörter im Gesamtkorpus ermitteln. So könnten verständlichere Übersetzungsvorschläge bevorzugt werden, die i.d.R. auch leichter angepasst werden können.
Im Folgenden werden zwei Ähnlichkeitsmaße kurz umschrieben, um einen
Eindruck davon vermitteln zu können, welche Schwierigkeiten auftreten.
Das erste Beispiel knüpft an Abschnitt
an, indem ein
Wortalignment hergestellt wird, um die Änderungen adäquat zu beschreiben.
Als zweites Beispiel wird ein einfaches symmetrisches Abstandsmaß
beschrieben.
Eine Bewertung sollte berücksichtigen, welche Arten von Änderungen
vorliegen.
Hierzu müssen sie zuerst bestimmt werden.
Das ist keine triviale Aufgabe, da Ersetzungen und Umstellungen auch
durch eine Kombination von Löschungen und Einfügungen
beschrieben werden
können und da Zuordnungen nicht eindeutig sind, wenn Wörter doppelt
vorkommen.
Das konstruierte Beispiel (
) ist sicherlich ein
Extremfall, der selten vorkommt.
Es macht aber deutlich, dass eine Änderung auf unterschiedliche Weise
beschrieben werden kann
und dass weitere Kriterien notwendig sind, um eine Wahl treffen
zu können, welche Beschreibung der Änderungen am angemessensten ist.
Mögliche Beschreibungen für die Änderungen im Beispiel (
)
sind u.a.
Die Beschreibung a) könnte vorgezogen werden, wenn die Kriterien das Zertrennen von Phrasen verbieten. Denkbar wäre zum Beispiel eine Regel, dass eine Wortgruppe nicht zwischen einem Adjektiv und einem Nomen enden kann. Ohne dieses linguistische Wissen wird man vermutlich b) bevorzugen, da hier mehr Wörter unverändert bleiben. ,,Bericht wurde`` und ,,Bericht ersetzt`` werden dann als unveränderte Wortgruppen interpretiert. Das in Betracht Ziehen von Wortgruppen und Umstellungen kostet viel Zeit. Wird darauf verzichtet, könnten c) und d) in Frage kommen.
Die Beschreibung der Änderungen hat große Ähnlichkeit mit einem Alignment,
das nur zusammenhängende Gruppen erlaubt.
Ersetzungen sind Zuordnungen, bei denen die einander zugeordneten
Wortgruppen nicht identisch sind.
Ein Alignment kann weitere Arten von Änderungen beschreiben als die, die
oben erwähnt wurden.
Tritt z.B. ein Kompositum in einem Satz getrennt und im anderen zusammen
geschrieben auf, dann ist eine
Ersetzung als Beschreibung sinnvoll.
Ein Aligner kann somit die Aufgabe übernehmen, aus den vielen möglichen
Beschreibungen der Änderungen eine Beschreibung auszuwählen, die
hinsichtlich festzulegender
Kriterien optimal ist.
Z.B. müssen Ersetzungen deutlich schlechter bewertet werden als
Zuordnungen von identischen Wortgruppen, damit Umstellungen, Löschungen
und Einfügungen erkannt werden können.
Sonst könnte ein Aligner für das Beispiel (
)
neun Ersetzungen und eine Einfügung als Beschreibung bevorzugen.
Der Aligner könnte auch linguistisches Wissen einsetzen, um die
Ersetzungen zu bewerten.
Beispielsweise könnten
übereinstimmende grammatische Merkmale, die syntaktischen Kategorien
der Wortgruppen und der semantische Abstand bewertet werden.
Flache Analysen reichen dafür aus:
Eine Flexionsanalyse gibt Hinweise darauf, welche grammatischen Merkmale
vorliegen.
Wortartenfolgen, die ein Tagger (siehe Abschnitt
) bestimmen
kann, können benutzt werden, um Wortgruppen zu klassifizieren.
Für das Nachschlagen der Wörter in einen Thesaurus müssen diese nur
auf ihre Grundform reduziert werden.
Die Bewertung eines Wortalignments muss nicht auf die Bewertung der einzelnen Zuordnungen beschränkt bleiben. Weiter oben wurde schon am Beispiel einer Adjektiv-Nomen-Sequenz deutlich, dass die gebildeten Wortgruppen auf ihre linguistische Plausibilität hin überprüft werden sollten. Auch hier können flache Analysestrukuren verwendet werden. Ein so genannter Chunker markiert die Phrasen eines Satzes ohne sie hierarchisch zu ordnen. Die Grenzen der Chunks können mit denen der Wortgruppen verglichen werden.
Die vom Aligner berechnete Bewertung des optimalen Alignments kann nicht ohne Weiteres als Ähnlichkeitsmaß der Sätze verwendet werden. Die Bewertungsfunktion ordnet lediglich die verschiedenen Alignments der zwei vorgelegten Sätze. Die Werte müssen nicht vergleichbar mit den Werten sein, die sich für andere Satzpaare ergeben. Bei dem Entwurf der Bewertungsfunktion muss daher besonders berücksichtigt werden, dass die Bewertungen vergleichbar sein sollen. Alternativ kann das Translation Memory das optimale Alignment mit einer zweiten Bewertungsfunktion beurteilen, die die Änderungen im Hinblick darauf beurteilt, welcher Arbeitsaufwand bei der Anpassung der Übersetzung zu erwarten ist.
Eine einfachere Möglichkeit, die Änderungen zu bewerten, bietet die
Korrelation der Positionen der Wörter in den zu vergleichenden Sätzen.
Tabelle
zeigt das Prinzip für das
Beispiel (
).
Die Exponentialfunktion wende ich auf die negativen Differenzen an, damit
Wörter, die nur in einem der Sätze auftreten, einfach in die
Bewertung integriert werden können.
Für sie wird ein unendlicher Positionsabstand angenommen, der zu der
Bewertung 0 führt (Zeile ,,vollständig`` im Beispiel).
Je kleiner der Positionsabstand ist, desto größer ist die Bewertung.
Die bestmögliche Bewertung 1,0 stellt sich ein, wenn die Wortpositionen
identisch sind.
Als Gesamtbewertung wird im Beispiel der Mittelwert verwendet.
() vergleichen einige Ähnlichkeitsmaße und bieten daher eine gute Übersicht. Sie betrachten sprachunabhängige Maße, die wahlweise die Zeichen oder die Wörter der zu vergleichenden Sätze als Einheiten behandeln. Zu dieser Klasse gehört auch das Maß aus dem vorangehenden Unterabschnitt, da es auch möglich ist, die Zeichenpositionen der einzelnen Buchstaben zu vergleichen. beschreiben unter anderem ein auf dem Vector Space Model basierendes Ähnlichkeitsmaß, das im Bereich des Information Retrievals sehr verbreitet ist, das Maß ,,Editierdistanz`` und zwei Maße, die die Längen der gemeinsamen Zeichen- oder Tokenketten berücksichtigen.