Die Art der sprachlichen Einheit hat wesentlichen Einfluss darauf, wie leicht die Identifikation der Übersetzung fällt. Werden z.B. nur vollständige Absätze im TM nachgeschlagen, dann kann die Übersetzung zu einer Fundstelle leicht im zielsprachlichen Text erkannt werden, da die Absatzgrenzen in elektronischen Dokumenten eindeutig sind2.3und gewöhnlich Absätze eins zu eins übersetzt werden, d.h. Absätze der Ausgangstextes werden nicht aufgeteilt oder vereinigt und auch nicht umgeordnet. Wenn z.B. die Fundstelle der elfte Absatz des Ausgangstextes ist, dann kann das Translation Memory als Übersetzungsvorschlag einfach den elften Absatz des Zieltextes ausgeben.
Schwieriger wird es, wenn nicht von einer
Übersetzung
der Einheiten ausgegangen werden kann.
Bereits Sätze verletzen diese Bedingung so häufig und unregelmäßig,
dass die Satzpositionen nicht einfach umgerechnet werden können,
wie im nachfolgenden
Abschnitt demonstriert wird.
Bei kleineren Einheiten wird es zunehmend schwieriger, die Grenzen
der Einheiten auf beiden Sprachseiten zuverlässig zu erkennen.
Eine
Zuordnung der Einheiten ist häufig nicht möglich.
Mit der Größe der Einheiten ist dabei nicht die Länge in Wörtern oder Zeichen gemeint, sondern die (syntaktische) Kategorie, zu der die Einheit gehört, die im TM nachgeschlagen werden soll. Genauer gesagt ist die Position innerhalb der Hierarchie der Kategorien relevant. Hier werden in der Syntax gewöhnlich lexikalische Kategorien (Nomen, Verb etc.), phrasale Kategorien (z.B. Nominalphrasen), Teilsätze und Sätze unterschieden. Absätze erweitern diese Hierarchie nach oben hin, indem sie eine Folge von Sätzen umfassen. In der anderen Richtung wäre denkbar, die Gliederung der Lexeme in Morpheme hinzuzunehmen. Letzteres könnte auf ein Translation Memory hinauslaufen, das die Bestandteile von Komposita, die Ausgangsformen von Derivationen und Stamm und Flexionsendung flektierter Formen als Einheiten behandelt und entsprechend eine Übersetzung unabhängig vom Kontext aus dem Referenzmaterial liefert. Hier spricht man aber gewöhnlich nicht von Translation Memorys. Systeme, die einzelne Wörter als Einheiten wählen, würde man eher als eine sehr einfache Form der Lexikonextraktion bezeichnen.
Jede dieser Größenstufen erfordert angepasste Methoden, um die Einheiten
in der Übersetzung erkennen und der Suchvorgabe zuordnen zu können.
Die Art der Behandlung von Absätzen wurde weiter oben schon angedeutet.
Bei Sätzen gibt es verschiedene Verfahren, die sich u.a. darin
unterscheiden, wie weit sie den Text analysieren und welches
linguistische Wissen sie investieren.
Die meisten Schwierigkeiten bereitet es, die Zuordnungen richtig zu
erkennen, die nicht
verlaufen.
(Siehe unten.)
In der Praxis überlassen die Translation Memorys der CAT-Anbieter es
dem Benutzer, einmal zu Beginn der Arbeit die Zuordnungen für das
gesamte Textmaterial herzustellen.
Sind die Einheiten kleiner, dann tritt das Problem der Erkennung der Einheiten in den Vordergrund. Dieses Problem wird gewöhnlich mit computerlinguistischen Methoden wie Parsing oder Chunking gelöst. Es wird also linguistisches Wissen über die Wortarten der Wörter und ihre grammatische Struktur benötigt. Dies bedeutet zum einen, dass der Anpassungsaufwand der Verfahren an weitere Sprachen, die der TM-Softwareanbieter mit seinem Produkt unterstützen will, sehr groß ist und dass häufiger falsche Einheiten identifiziert werden, da nicht alle Ausnahmen und Sonderfälle natürlicher Sprachen berücksichtigt werden können. Zum anderen wird das Gebiet sowohl theoretisch als auch praktisch seit Jahren untersucht, sodass ein TM-Entwickler auf bestehende Softwarekomponenten zurückgreifen kann. Die Zuordnung der Einheiten der Übersetzung zu den Einheiten des Ausgangstextes gestaltet sich auf der Ebene der Phrasen aber nicht einfach, da die Reihenfolge verändert sein kann und Verschmelzungen und Aufteilungen wesentlich häufiger sind als bei Sätzen.
Ein anderer Aspekt, der durch die Größe der Einheit beeiflusst wird,
ist die Wiederverwendbarkeit der Übersetzung in anderen Kontexten.
Es reicht nicht aus, wenn der Übersetzungsvorschlag des
Translation Memorys eine belegte Übersetzung der Ausgangseinheit ist.
Er muss auch in den neuen Kontext passen.
Handelt es sich bei der Einheit des Translation Memorys um einen Satz,
dann sind meistens
in der Einheit selbst genügend Kontextinformation vorhanden, die
auftretende Wörter aus offenen Wortklassen wie z.B. Verben und Nomen
disambiguieren.
Häufig bereiten aber
Anaphern Probleme, z.B.
Pronomina, wenn ihr Bezugspunkt außerhalb des
Satzes liegt.
Im Beispiel (
) geht es um eine Computerfestplatte.
Eine naheliegende Übersetzung des
Antezendens ,,the drive`` ins Deutsche ist
Femininum (Festplatte)
oder Neutrum (Gerät) nicht aber Maskulinum, wie es im Beispiel
(
) der Fall ist, da es hier um einen Lüfter zur
Kühlung eines Computers geht und somit die Alternativen ,,Gebläse``
oder ,,Triebwerk`` keine geeigneten Übersetzungen sind.2.4
Das Genus muss aber nicht verschieden sein, damit die Übersetzung
nicht in den Kontext passt.
Zum einen übernimmt ein Übersetzer das Muster von
Nomen und Pronomen i.d.R. nichts aus dem Ausgangstext,
sondern entscheidet
bei der Produktion des Zieltextes neu, wann eine Wiederholung des
Nomens und wann ein Pronomen die Lesbarkeit erhöht.
Wenn im Beispiel (
) der Übersetzer nochmal das
Nomen ,,Festplatte`` aufgreift, dann würde das Translation Memory
dem Übersetzer zu (
) einen Übersetzungvorschlag
unterbreiten, der inhaltlich falsch ist und den Übersetzer irritiert.
Zum anderen kommt es vor, dass durch das veränderte Antezedens
weitere Wörter des Satzes betroffen sind.
Im obigen Beispiel würde dies eintreten, wenn der Text
zu übersetzen wäre,
nachdem die ersten beiden Beispieltexte übersetzt
und im Translation Memory gespeichert wurden.
Zwar ist in einem der beiden Übersetzungsvorschläge, die das
Translation Memory macht, das Pronomen Femininum.
Aber die Übersetzungen des Verbs ,,spin``, die aus anderen Kontexten
stammen, sind hier zu unspezifisch.
Das Verb sollte mit ,,schleudern`` übersetzt werden und nicht mit
,,rotieren``, ,,laufen`` oder ,,drehen``.
Diese Unsicherheiten können immer dann auftreten, wenn die zu übersetzende Einheit nicht genug Informationen enthält. Man könnte also vermuten, dass der Anteil der geeigneten Übersetzungsvorschläge des Translation Memorys mit der Länge der Einheit in Wörtern oder Zeichen zunimmt. Allerdings ist die Länge der Einheit nur ein Anhaltspunkt. Auch eine sehr lange Einheit kann eine Abhängigkeit vom Kontext enthalten, die die Verwendung der Übersetzung in einem anderen Kontext verhindert.
Bei kleineren Einheiten als dem Satz stehen der Wiederverwendbarkeit der im Translation Memory gespeicherten Übersetzungen die in den vorangehenden Absätzen beschriebenen Probleme wesentlich häufiger im Weg. Wenn Subjekt, Verb, Objekte und Adjunkte isoliert abgerufen werden, fehlt der Kontext ganz, der Mehrdeutigkeiten auflösen könnte. Das ist auch ein Grund, warum man sich meistens auf Sätze als Einheiten beschränkt.
) mit
einer Übersetzung in der Datenbasis stünde und der letzte Satz von
(
) zu übersetzen wäre.
Praxistaugliche Translation Memorys erkennen jedoch Zahlen und
Einheiten und zeigen auch Fundstellen an, die kleine Änderungen
enthalten.