next up previous contents index
Nächste Seite: Tokenisierung Aufwärts: Vorverarbeitung Vorherige Seite: Vorverarbeitung   Inhalt   Index

Unterabschnitte

Aufbereitung und Normalisierung

Die Dokumente, aus denen sich das KoKS-Korpus zusammen setzt, stammen aus verschiedenen Quellen. Entsprechend vielfältig sind die Probleme, die bei der Zuordnung der deutschen und englischen Fassung eines Dokuments auftraten. Mit computerlinguistischen Methoden konnten diese im KoKS-Projekt gelöst werden: Zur Sprachidentifikation wurden Häufigkeitsverteilungen der auftretenden Buchstaben-n-Gramme gemessen, und zur Überprüfung des Dokumentalignments einer Quelle wurde der KoKS-Aligner in einer modifizierten Fassung eingesetzt.

Nach dieser Aufbereitung liegen die Dokumente in einem Verzeichnisbaum und werden durch eine XML-Datei (index.xml) je Teilkorpus beschrieben. Die Beschreibung schließt die Zuordnung der deutschen und englischen Fassungen ein. I.d.R. wurden zusätzlich die Dateinamen für die Dokumente so gewählt, dass Dokumente, die Übersetzungen voneinander sind, durch ein Präfix erkannt werden können.

Abbildung: Aufbereitetes Dokumentpaar
\begin{figure}\begin{center}
\begin{tabular}{p{5cm}\vert p{5cm}}
\verb/</H1\verb...
...Also, there was nothing on the telly. \\
\end{tabular}\end{center}
\end{figure}
Abbildung [*], aus der Abschlusspräsentation des KoKS-Projekts adaptiert wurde, zeigt ein sehr kurzes Dokumentpaar, das im folgenden verwendet wird, um die einzelnen Vorverarbeitungsschritte zu illustrieren.

Im zweiten Vorverarbeitungsschritt werden die Formate der Dokumente normalisiert, um in den weiteren Schritten ein einheitliches Format voraussetzen zu können. Für jedes Dateiformat, das in einer Korpusquelle verwendet wird, steht ein Normalisierungsmodul bereit, das Dokumente auf eine Abfolge von Überschriften und Absätzen reduziert und sämtliche Layout- und sonstige Strukturinformationen entfernt. Dies ist ein Unterschied zu gewöhnlichen Translation Memorys. Dort bleiben die Formatanweisungen erhalten, sodass ein Exact-Match nur möglich ist, wenn auch die Formatierungen übereinstimmen. Im Translation Memory dieser Arbeit werden Formatierung beim Matching nicht berücksichtigt, da sie nicht gespeichert sind.

Die Normalisierung fügt nach Absätzen und Überschriften eine Markierung ein. Markierungen werden in spitzen Klammern gesetzt, da sie dann im nachfolgenden Vorverarbeitungsschritt keine Probleme bereitet, siehe Abbildung [*]. Die Ähnlichkeit zu SGML-Markierungen verleitet dazu, anzunehmen, es handle sich um eine Startmarkierung. Die Markierung zeigt hier aber das Ende eines Absatzes (oder einer Überschrift) an.

In den weiteren Schritten wird nicht zwischen Überschriften und Absätzen unterschieden. Überschriften sind im KoKS-System spezielle Absätze, die gewöhnlich ohne Satzzeichen oder mit Frage- oder Ausrufungszeichen enden und nicht mehr als einen Satz enthalten. Nach der Normalisierung spielt Whitespace3.2außer als Worttrenner keine Rolle mehr.

Abbildung: Normalisiertes Dokumentpaar
\begin{figure}\begin{center}
\begin{tabular}{p{5cm}\vert p{5cm}}
Mein Wochenende...
...elly. \newline
\verb/</ABSATZ\verb/>/ \\
\end{tabular}\end{center}
\end{figure}
Abbildung [*] zeigt das normalisierte Beispiel. Man beachte, dass der Punkt nach ,,burned down`` abgerückt ist. Der SGML-Parser wird offenbar nicht korrekt benutzt. Beim HTML-Normalisierungsmodul tritt dieser Effekt nicht auf. Dies ist aber kein akutes Problem, da in dem KoKS-Korpus Formatierungen selten oder gar nicht auftreten.

Aufbereitung des Harry-Potter Korpus

Beim Harry-Potter Korpus, das erst nach dem Ende des KoKS-Projekts von Norman Kummer und dem Autor dieser Arbeit erschlossen wurde, mussten die Dokumente in kleinere Dateien zerlegt werden, da sich der KoKS-Aligner in Laufzeit und Speicherplatzbedarf nicht besser als quadratisch zur Satzanzahl verhält. Die vollständigen Bücher, die jeweils zwischen ca. 6500 und 15000 Sätze umfassen, sind für den Aligner zu groß. (Zur Arbeitsweise des Aligners siehe Abschnitt [*] weiter unten.)

Die Aufteilung muss in der deutschen und englischen Fassung an sich entsprechenden Stellen erfolgen, damit die resultierenden Dokumente Übersetzungen voneinander bleiben. Hierzu wurden die beiden Sprachfassungen in zwei Texteditoren geöffnet und an geeigneten Stellen Trennzeilen eingefügt, an denen die Texte anschließend in Einzeldateien aufgeteilt wurden.

Ein weiteres spezielles Problem des Harry-Potter Korpus ergibt sich daraus, dass die Dokumente per OCR von einer Buchvorlage erfasst wurden. Der Text wird daher in regelmäßigen Abständen durch Seitenzahlen unterbrochen, und Zeichen können falsch erkannt sein. Die Zeilen, die die Seitenzahlen enthalten, wurden mit einem Suchmuster identifiziert und entfernt. Weil die Erkennungsqualität der OCR bei den Seitenzahlen sehr schlecht war, mussten neben Ziffern auch weitere Zeichen, wie ,,l`` und ,,*`` in das Suchmuster aufgenommen werden. Möglicherweise wurden dadurch einige zum Text gehörende Zeilen gelöscht.3.3

Zu erwarten wäre, dass die Silbentrennung der gedruckten Vorlage einen so großen Teil der Wörter zertrennt, dass die meisten Sätze betroffen sind. Jedoch sind innerhalb der einzelnen Seiten Wörter am Zeilenende nur extrem selten getrennt. Da dagegen am Seitenende Wörter häufig getrennt sind, ist dies vermutlich kein Merkmal der Bücher, sondern erklärt sich als nachträgliche Korrektur derjenigen, die die Texte im Internet verbreiten, oder als automatische Anpassung durch die OCR-Software. Während getrennte Wörter für das KoKS-System nur eine höhere Quote unbekannter Wörter zur Folge haben, verringern sie in der Translation Memory Anwendung beim Fuzzy-Matching die Ähnlichkeit zum Anfragesatz unnötig.



Fußnoten

...WhitespaceWhitespace3.2
Sammelbezeichnung für Elemente einer Zeichenfolge (String), die den Fluss der Zeichen unterbrechen, z.B. Leerzeichen, Zeilenumbruch, -vorschub, Seitenwechsel und Tabulatoren.
... gelöscht.3.3
Darüber hinaus wurden einige Zeilen, vor allem Überschriften, die wegen vieler OCR-Fehler unleserlich waren, absichtlich entfernt. Um das Satzalignment nicht zu erschweren, wurden auch die entsprechenden Passagen in der anderen Spachfassung herausgenommen. Hiervon ist aber nicht das gesamte Korpus betroffen, da einer der beiden menschlichen Aufbereiter diese Löschungen ablehnte.

next up previous contents index
Nächste Seite: Tokenisierung Aufwärts: Vorverarbeitung Vorherige Seite: Vorverarbeitung   Inhalt   Index
JWaGnER@CoMpUtING.Dcu.Ie