next up previous contents index
Nächste Seite: Übersetzung von Sätzen Aufwärts: Segmentierung eines Bitexts in Vorherige Seite: Segmentierung eines Bitexts in   Inhalt   Index

Unterabschnitte

Granularität

Die Art der sprachlichen Einheit hat wesentlichen Einfluss darauf, wie leicht die Identifikation der Übersetzung fällt. Werden z.B. nur vollständige Absätze im TM nachgeschlagen, dann kann die Übersetzung zu einer Fundstelle leicht im zielsprachlichen Text erkannt werden, da die Absatzgrenzen in elektronischen Dokumenten eindeutig sind2.3und gewöhnlich Absätze eins zu eins übersetzt werden, d.h. Absätze der Ausgangstextes werden nicht aufgeteilt oder vereinigt und auch nicht umgeordnet. Wenn z.B. die Fundstelle der elfte Absatz des Ausgangstextes ist, dann kann das Translation Memory als Übersetzungsvorschlag einfach den elften Absatz des Zieltextes ausgeben.

Schwieriger wird es, wenn nicht von einer $ 1:1$ Übersetzung der Einheiten ausgegangen werden kann. Bereits Sätze verletzen diese Bedingung so häufig und unregelmäßig, dass die Satzpositionen nicht einfach umgerechnet werden können, wie im nachfolgenden Abschnitt demonstriert wird. Bei kleineren Einheiten wird es zunehmend schwieriger, die Grenzen der Einheiten auf beiden Sprachseiten zuverlässig zu erkennen. Eine $ 1:1$ Zuordnung der Einheiten ist häufig nicht möglich.

Mit der Größe der Einheiten ist dabei nicht die Länge in Wörtern oder Zeichen gemeint, sondern die (syntaktische) Kategorie, zu der die Einheit gehört, die im TM nachgeschlagen werden soll. Genauer gesagt ist die Position innerhalb der Hierarchie der Kategorien relevant. Hier werden in der Syntax gewöhnlich lexikalische Kategorien (Nomen, Verb etc.), phrasale Kategorien (z.B. Nominalphrasen), Teilsätze und Sätze unterschieden. Absätze erweitern diese Hierarchie nach oben hin, indem sie eine Folge von Sätzen umfassen. In der anderen Richtung wäre denkbar, die Gliederung der Lexeme in Morpheme hinzuzunehmen. Letzteres könnte auf ein Translation Memory hinauslaufen, das die Bestandteile von Komposita, die Ausgangsformen von Derivationen und Stamm und Flexionsendung flektierter Formen als Einheiten behandelt und entsprechend eine Übersetzung unabhängig vom Kontext aus dem Referenzmaterial liefert. Hier spricht man aber gewöhnlich nicht von Translation Memorys. Systeme, die einzelne Wörter als Einheiten wählen, würde man eher als eine sehr einfache Form der Lexikonextraktion bezeichnen.

Jede dieser Größenstufen erfordert angepasste Methoden, um die Einheiten in der Übersetzung erkennen und der Suchvorgabe zuordnen zu können. Die Art der Behandlung von Absätzen wurde weiter oben schon angedeutet. Bei Sätzen gibt es verschiedene Verfahren, die sich u.a. darin unterscheiden, wie weit sie den Text analysieren und welches linguistische Wissen sie investieren. Die meisten Schwierigkeiten bereitet es, die Zuordnungen richtig zu erkennen, die nicht $ 1:1$ verlaufen. (Siehe unten.) In der Praxis überlassen die Translation Memorys der CAT-Anbieter es dem Benutzer, einmal zu Beginn der Arbeit die Zuordnungen für das gesamte Textmaterial herzustellen.

Sind die Einheiten kleiner, dann tritt das Problem der Erkennung der Einheiten in den Vordergrund. Dieses Problem wird gewöhnlich mit computerlinguistischen Methoden wie Parsing oder Chunking gelöst. Es wird also linguistisches Wissen über die Wortarten der Wörter und ihre grammatische Struktur benötigt. Dies bedeutet zum einen, dass der Anpassungsaufwand der Verfahren an weitere Sprachen, die der TM-Softwareanbieter mit seinem Produkt unterstützen will, sehr groß ist und dass häufiger falsche Einheiten identifiziert werden, da nicht alle Ausnahmen und Sonderfälle natürlicher Sprachen berücksichtigt werden können. Zum anderen wird das Gebiet sowohl theoretisch als auch praktisch seit Jahren untersucht, sodass ein TM-Entwickler auf bestehende Softwarekomponenten zurückgreifen kann. Die Zuordnung der Einheiten der Übersetzung zu den Einheiten des Ausgangstextes gestaltet sich auf der Ebene der Phrasen aber nicht einfach, da die Reihenfolge verändert sein kann und Verschmelzungen und Aufteilungen wesentlich häufiger sind als bei Sätzen.

Wiederverwendbarkeit

Ein anderer Aspekt, der durch die Größe der Einheit beeiflusst wird, ist die Wiederverwendbarkeit der Übersetzung in anderen Kontexten. Es reicht nicht aus, wenn der Übersetzungsvorschlag des Translation Memorys eine belegte Übersetzung der Ausgangseinheit ist. Er muss auch in den neuen Kontext passen. Handelt es sich bei der Einheit des Translation Memorys um einen Satz, dann sind meistens in der Einheit selbst genügend Kontextinformation vorhanden, die auftretende Wörter aus offenen Wortklassen wie z.B. Verben und Nomen disambiguieren. Häufig bereiten aber Anaphern Probleme, z.B. Pronomina, wenn ihr Bezugspunkt außerhalb des Satzes liegt.
\begin{examples}
\item The drive has a 2 MB buffer, [...]. It spins at 5400 RPM...
...n is the problem. [...] It spins at 5000 rpm.
(www.pureoc.com)
\end{examples}
Im Beispiel ([*]) geht es um eine Computerfestplatte. Eine naheliegende Übersetzung des Antezendens ,,the drive`` ins Deutsche ist Femininum (Festplatte) oder Neutrum (Gerät) nicht aber Maskulinum, wie es im Beispiel ([*]) der Fall ist, da es hier um einen Lüfter zur Kühlung eines Computers geht und somit die Alternativen ,,Gebläse`` oder ,,Triebwerk`` keine geeigneten Übersetzungen sind.2.4

Das Genus muss aber nicht verschieden sein, damit die Übersetzung nicht in den Kontext passt. Zum einen übernimmt ein Übersetzer das Muster von Nomen und Pronomen i.d.R. nichts aus dem Ausgangstext, sondern entscheidet bei der Produktion des Zieltextes neu, wann eine Wiederholung des Nomens und wann ein Pronomen die Lesbarkeit erhöht. Wenn im Beispiel ([*]) der Übersetzer nochmal das Nomen ,,Festplatte`` aufgreift, dann würde das Translation Memory dem Übersetzer zu ([*]) einen Übersetzungvorschlag unterbreiten, der inhaltlich falsch ist und den Übersetzer irritiert.

Zum anderen kommt es vor, dass durch das veränderte Antezedens weitere Wörter des Satzes betroffen sind. Im obigen Beispiel würde dies eintreten, wenn der Text
\begin{examples}
\item The washing machine provides best spin performance. It spins
at 1200 RPM.
(konstruiertes Beispiel)
\end{examples}
zu übersetzen wäre, nachdem die ersten beiden Beispieltexte übersetzt und im Translation Memory gespeichert wurden. Zwar ist in einem der beiden Übersetzungsvorschläge, die das Translation Memory macht, das Pronomen Femininum. Aber die Übersetzungen des Verbs ,,spin``, die aus anderen Kontexten stammen, sind hier zu unspezifisch. Das Verb sollte mit ,,schleudern`` übersetzt werden und nicht mit ,,rotieren``, ,,laufen`` oder ,,drehen``.

Diese Unsicherheiten können immer dann auftreten, wenn die zu übersetzende Einheit nicht genug Informationen enthält. Man könnte also vermuten, dass der Anteil der geeigneten Übersetzungsvorschläge des Translation Memorys mit der Länge der Einheit in Wörtern oder Zeichen zunimmt. Allerdings ist die Länge der Einheit nur ein Anhaltspunkt. Auch eine sehr lange Einheit kann eine Abhängigkeit vom Kontext enthalten, die die Verwendung der Übersetzung in einem anderen Kontext verhindert.

Bei kleineren Einheiten als dem Satz stehen der Wiederverwendbarkeit der im Translation Memory gespeicherten Übersetzungen die in den vorangehenden Absätzen beschriebenen Probleme wesentlich häufiger im Weg. Wenn Subjekt, Verb, Objekte und Adjunkte isoliert abgerufen werden, fehlt der Kontext ganz, der Mehrdeutigkeiten auflösen könnte. Das ist auch ein Grund, warum man sich meistens auf Sätze als Einheiten beschränkt.



Fußnoten

... sind2.3
Dies trifft nicht immer zu. Im Format ,,Nur Text`` gibt es zwar die Konvention, entweder jeden Absatz als eine lange Zeile zu repräsentieren und es dem Textverarbeitungsprogramm zu überlassen, bei der Bildschirmausgabe oder beim Drucken Zeilenumbrüche einzufügen, oder aber nach jedem Absatzende eine Leerzeile zu speichern. Diese Konvention wird aber mitunter verletzt, oder es wird bei der Verarbeitung der Dokumente nicht beachtet, welche Bedeutung die Zeilenumbrüche haben. Des Weiteren kann bei der optischen Erfassung (OCR) gedruckter Dokumente die korrekte Erkennung der Absatzgrenzen fehlschlagen, wenn die Vorlage keine Anhaltspunkte (z.B. Einrückungen) enthält, die die OCR-Software nutzen kann.
... sind.2.4
Im Beispiel sind die Zahlen und Einheiten nicht identisch. Ein striktes Translation Memory würde daher keinen Übersetzungsvorschlag liefern, wenn nur ([*]) mit einer Übersetzung in der Datenbasis stünde und der letzte Satz von ([*]) zu übersetzen wäre. Praxistaugliche Translation Memorys erkennen jedoch Zahlen und Einheiten und zeigen auch Fundstellen an, die kleine Änderungen enthalten.

next up previous contents index
Nächste Seite: Übersetzung von Sätzen Aufwärts: Segmentierung eines Bitexts in Vorherige Seite: Segmentierung eines Bitexts in   Inhalt   Index
JWaGnER@CoMpUtING.Dcu.Ie