next up previous contents index
Nächste Seite: Einsatz flacher Analysestrukturen Aufwärts: Berücksichtigung von ähnlichen TUs Vorherige Seite: Zugriff auf das Referenzmaterial   Inhalt   Index

Unterabschnitte

Ähnlichkeitsmaße

Die Relevanz eines Übersetzungsvorschlags orientiert sich daran, wie sehr der Vorschlag dem Übersetzer hilft, d.h. welchen Effizienz- und Effektivitätsvorteilt er ihm bietet. Um die Relevanz abzuschätzen stehen dem Translation Memory primär der zu übersetzende Satz, die Fundstelle und die zugeordnete Übersetzung zur Verfügung. (Sekundäre Informationsquellen sind die alternativen Fundstellen, die gesamten im TM gespeicherten Korpora und sonstige Quellen wie z.B. Wörterbücher.) Wichtigstes und naheliegendstes Kriterium ist der Grad der Übereinstimmung der Fundstelle mit dem zu übersetzenden Satz. Sie wird mit einem Ähnlichkeitsmaß gemessen. Häufig sind diese Maße symmetrisch, d.h. die Richtung des Vergleichs spielt keine Rolle.

Ob ein Wort eingefügt oder gelöscht wird, hat natürlich unterschiedlichen Einfluss auf die Nützlichkeit der Übersetzung. Vermutlich ist es für den Übersetzer einfacher, ein Wort aus dem Übersetzungsvorschlag zu entfernen als eine passende Übersetzung für ein eingefügtes Wort suchen zu müssen. Die Auswirkungen der Änderungen können aber komplexer sein, so dass auch scheinbar einfache Fälle schwierigere Anpassungen erfordern. Es wäre sinnvoll, dies experimentell zu untersuchen, um ein asymmetrisches Ähnlichkeitsmaß entwerfen zu können, das auf die spezielle Problemstellung des Translation Memorys eingeht.

Denkbar wäre auch, Kriterien in die Bewertung der Relevanz einfließen zu lassen, die die Übersetzung isoliert betrachten, wie die Komplexität der grammatischen Struktur oder den lexikalischen Schwierigkeitsgrad, den z.B. () aus der Häufigkeit der auftretenden Wörter im Gesamtkorpus ermitteln. So könnten verständlichere Übersetzungsvorschläge bevorzugt werden, die i.d.R. auch leichter angepasst werden können.

Im Folgenden werden zwei Ähnlichkeitsmaße kurz umschrieben, um einen Eindruck davon vermitteln zu können, welche Schwierigkeiten auftreten. Das erste Beispiel knüpft an Abschnitt [*] an, indem ein Wortalignment hergestellt wird, um die Änderungen adäquat zu beschreiben. Als zweites Beispiel wird ein einfaches symmetrisches Abstandsmaß beschrieben.

Wortalignment

Eine Bewertung sollte berücksichtigen, welche Arten von Änderungen vorliegen. Hierzu müssen sie zuerst bestimmt werden. Das ist keine triviale Aufgabe, da Ersetzungen und Umstellungen auch durch eine Kombination von Löschungen und Einfügungen beschrieben werden können und da Zuordnungen nicht eindeutig sind, wenn Wörter doppelt vorkommen.
\begin{examples}
\item Durch den neuen Bericht wurde der alte Bericht ersetzt. ...
...alte Bericht wurde vollständig durch den neuen Bericht ersetzt.
\end{examples}
Das konstruierte Beispiel ([*]) ist sicherlich ein Extremfall, der selten vorkommt. Es macht aber deutlich, dass eine Änderung auf unterschiedliche Weise beschrieben werden kann und dass weitere Kriterien notwendig sind, um eine Wahl treffen zu können, welche Beschreibung der Änderungen am angemessensten ist. Mögliche Beschreibungen für die Änderungen im Beispiel ([*]) sind u.a.

a)
zwei Umstellung von vier bzw. drei Wörtern und eine Einfügung,
b)
zwei Umstellung von drei bzw. zwei Wörtern und eine Einfügung,
c)
fünf Umstellungen von Einzelwörtern und eine Einfügung und
d)
vier Ersetzungen, eine Löschung und zwei Einfügungen.

Die Beschreibung a) könnte vorgezogen werden, wenn die Kriterien das Zertrennen von Phrasen verbieten. Denkbar wäre zum Beispiel eine Regel, dass eine Wortgruppe nicht zwischen einem Adjektiv und einem Nomen enden kann. Ohne dieses linguistische Wissen wird man vermutlich b) bevorzugen, da hier mehr Wörter unverändert bleiben. ,,Bericht wurde`` und ,,Bericht ersetzt`` werden dann als unveränderte Wortgruppen interpretiert. Das in Betracht Ziehen von Wortgruppen und Umstellungen kostet viel Zeit. Wird darauf verzichtet, könnten c) und d) in Frage kommen.

Die Beschreibung der Änderungen hat große Ähnlichkeit mit einem Alignment, das nur zusammenhängende Gruppen erlaubt. Ersetzungen sind Zuordnungen, bei denen die einander zugeordneten Wortgruppen nicht identisch sind. Ein Alignment kann weitere Arten von Änderungen beschreiben als die, die oben erwähnt wurden. Tritt z.B. ein Kompositum in einem Satz getrennt und im anderen zusammen geschrieben auf, dann ist eine $ 2:1$ Ersetzung als Beschreibung sinnvoll.

Ein Aligner kann somit die Aufgabe übernehmen, aus den vielen möglichen Beschreibungen der Änderungen eine Beschreibung auszuwählen, die hinsichtlich festzulegender Kriterien optimal ist. Z.B. müssen Ersetzungen deutlich schlechter bewertet werden als Zuordnungen von identischen Wortgruppen, damit Umstellungen, Löschungen und Einfügungen erkannt werden können. Sonst könnte ein Aligner für das Beispiel ([*]) neun Ersetzungen und eine Einfügung als Beschreibung bevorzugen.

Der Aligner könnte auch linguistisches Wissen einsetzen, um die Ersetzungen zu bewerten. Beispielsweise könnten übereinstimmende grammatische Merkmale, die syntaktischen Kategorien der Wortgruppen und der semantische Abstand bewertet werden. Flache Analysen reichen dafür aus: Eine Flexionsanalyse gibt Hinweise darauf, welche grammatischen Merkmale vorliegen. Wortartenfolgen, die ein Tagger (siehe Abschnitt [*]) bestimmen kann, können benutzt werden, um Wortgruppen zu klassifizieren. Für das Nachschlagen der Wörter in einen Thesaurus müssen diese nur auf ihre Grundform reduziert werden.

Die Bewertung eines Wortalignments muss nicht auf die Bewertung der einzelnen Zuordnungen beschränkt bleiben. Weiter oben wurde schon am Beispiel einer Adjektiv-Nomen-Sequenz deutlich, dass die gebildeten Wortgruppen auf ihre linguistische Plausibilität hin überprüft werden sollten. Auch hier können flache Analysestrukuren verwendet werden. Ein so genannter Chunker markiert die Phrasen eines Satzes ohne sie hierarchisch zu ordnen. Die Grenzen der Chunks können mit denen der Wortgruppen verglichen werden.

Die vom Aligner berechnete Bewertung des optimalen Alignments kann nicht ohne Weiteres als Ähnlichkeitsmaß der Sätze verwendet werden. Die Bewertungsfunktion ordnet lediglich die verschiedenen Alignments der zwei vorgelegten Sätze. Die Werte müssen nicht vergleichbar mit den Werten sein, die sich für andere Satzpaare ergeben. Bei dem Entwurf der Bewertungsfunktion muss daher besonders berücksichtigt werden, dass die Bewertungen vergleichbar sein sollen. Alternativ kann das Translation Memory das optimale Alignment mit einer zweiten Bewertungsfunktion beurteilen, die die Änderungen im Hinblick darauf beurteilt, welcher Arbeitsaufwand bei der Anpassung der Übersetzung zu erwarten ist.

Wortpositionen

Eine einfachere Möglichkeit, die Änderungen zu bewerten, bietet die Korrelation der Positionen der Wörter in den zu vergleichenden Sätzen. Tabelle [*] zeigt das Prinzip für das Beispiel ([*]). Die Exponentialfunktion wende ich auf die negativen Differenzen an, damit Wörter, die nur in einem der Sätze auftreten, einfach in die Bewertung integriert werden können. Für sie wird ein unendlicher Positionsabstand angenommen, der zu der Bewertung 0 führt (Zeile ,,vollständig`` im Beispiel). Je kleiner der Positionsabstand ist, desto größer ist die Bewertung. Die bestmögliche Bewertung 1,0 stellt sich ein, wenn die Wortpositionen identisch sind. Als Gesamtbewertung wird im Beispiel der Mittelwert verwendet.


Tabelle: Positionsabstände und eine einfache Bewertung
Wort $ i$ $ j$ $ \vert i-j\vert$ $ e^{-\vert i-j\vert}$
alte 7 2 5 0,007
bericht:1 4 3 1 0,368
bericht:2 8 9 1 0,368
den 2 7 5 0,007
der 6 1 5 0,007
durch 1 6 5 0,007
ersetzt 9 10 1 0,368
neuen 3 8 5 0,007
vollständig - 5 - 0,000
wurde 5 4 1 0,368
Mittelwert - 0,151


Weitere Ähnlichkeitsmaße

() vergleichen einige Ähnlichkeitsmaße und bieten daher eine gute Übersicht. Sie betrachten sprachunabhängige Maße, die wahlweise die Zeichen oder die Wörter der zu vergleichenden Sätze als Einheiten behandeln. Zu dieser Klasse gehört auch das Maß aus dem vorangehenden Unterabschnitt, da es auch möglich ist, die Zeichenpositionen der einzelnen Buchstaben zu vergleichen. beschreiben unter anderem ein auf dem Vector Space Model basierendes Ähnlichkeitsmaß, das im Bereich des Information Retrievals sehr verbreitet ist, das Maß ,,Editierdistanz`` und zwei Maße, die die Längen der gemeinsamen Zeichen- oder Tokenketten berücksichtigen.


next up previous contents index
Nächste Seite: Einsatz flacher Analysestrukturen Aufwärts: Berücksichtigung von ähnlichen TUs Vorherige Seite: Zugriff auf das Referenzmaterial   Inhalt   Index
JWaGnER@CoMpUtING.Dcu.Ie