Die Dokumente, aus denen sich das KoKS-Korpus zusammen setzt, stammen aus verschiedenen Quellen. Entsprechend vielfältig sind die Probleme, die bei der Zuordnung der deutschen und englischen Fassung eines Dokuments auftraten. Mit computerlinguistischen Methoden konnten diese im KoKS-Projekt gelöst werden: Zur Sprachidentifikation wurden Häufigkeitsverteilungen der auftretenden Buchstaben-n-Gramme gemessen, und zur Überprüfung des Dokumentalignments einer Quelle wurde der KoKS-Aligner in einer modifizierten Fassung eingesetzt.
Nach dieser Aufbereitung liegen die Dokumente in einem Verzeichnisbaum
und werden durch eine XML-Datei
(index.xml)
je Teilkorpus beschrieben.
Die Beschreibung schließt die Zuordnung der deutschen und englischen
Fassungen ein.
I.d.R. wurden zusätzlich die Dateinamen für die Dokumente so gewählt,
dass Dokumente, die Übersetzungen voneinander sind, durch ein Präfix
erkannt werden können.
, aus der
Abschlusspräsentation des
KoKS-Projekts adaptiert wurde,
zeigt ein sehr kurzes Dokumentpaar, das im folgenden verwendet wird, um
die einzelnen Vorverarbeitungsschritte zu illustrieren.
Im zweiten Vorverarbeitungsschritt werden die Formate der Dokumente normalisiert, um in den weiteren Schritten ein einheitliches Format voraussetzen zu können. Für jedes Dateiformat, das in einer Korpusquelle verwendet wird, steht ein Normalisierungsmodul bereit, das Dokumente auf eine Abfolge von Überschriften und Absätzen reduziert und sämtliche Layout- und sonstige Strukturinformationen entfernt. Dies ist ein Unterschied zu gewöhnlichen Translation Memorys. Dort bleiben die Formatanweisungen erhalten, sodass ein Exact-Match nur möglich ist, wenn auch die Formatierungen übereinstimmen. Im Translation Memory dieser Arbeit werden Formatierung beim Matching nicht berücksichtigt, da sie nicht gespeichert sind.
Die Normalisierung fügt nach Absätzen und Überschriften eine
Markierung ein.
Markierungen werden in spitzen Klammern gesetzt, da sie dann im nachfolgenden
Vorverarbeitungsschritt keine Probleme bereitet, siehe Abbildung
.
Die Ähnlichkeit zu SGML-Markierungen verleitet dazu, anzunehmen, es
handle sich um eine Startmarkierung.
Die Markierung zeigt hier aber das Ende eines Absatzes (oder einer Überschrift)
an.
In den weiteren Schritten wird nicht zwischen Überschriften und Absätzen unterschieden. Überschriften sind im KoKS-System spezielle Absätze, die gewöhnlich ohne Satzzeichen oder mit Frage- oder Ausrufungszeichen enden und nicht mehr als einen Satz enthalten. Nach der Normalisierung spielt Whitespace3.2außer als Worttrenner keine Rolle mehr.
Abbildung
zeigt das normalisierte Beispiel.
Man beachte, dass der Punkt nach ,,burned down`` abgerückt ist.
Der SGML-Parser wird offenbar nicht korrekt benutzt.
Beim HTML-Normalisierungsmodul tritt dieser Effekt nicht auf.
Dies ist aber kein akutes Problem, da in dem KoKS-Korpus Formatierungen
selten oder gar nicht auftreten.
Beim Harry-Potter Korpus, das erst nach dem Ende des KoKS-Projekts
von Norman Kummer und dem Autor dieser Arbeit erschlossen wurde,
mussten die Dokumente in kleinere Dateien zerlegt werden, da sich der
KoKS-Aligner in Laufzeit und Speicherplatzbedarf nicht besser als
quadratisch zur Satzanzahl verhält.
Die vollständigen Bücher, die jeweils zwischen ca. 6500 und 15000 Sätze
umfassen, sind für den Aligner zu groß.
(Zur Arbeitsweise des Aligners siehe Abschnitt
weiter unten.)
Die Aufteilung muss in der deutschen und englischen Fassung an sich entsprechenden Stellen erfolgen, damit die resultierenden Dokumente Übersetzungen voneinander bleiben. Hierzu wurden die beiden Sprachfassungen in zwei Texteditoren geöffnet und an geeigneten Stellen Trennzeilen eingefügt, an denen die Texte anschließend in Einzeldateien aufgeteilt wurden.
Ein weiteres spezielles Problem des Harry-Potter Korpus ergibt sich daraus, dass die Dokumente per OCR von einer Buchvorlage erfasst wurden. Der Text wird daher in regelmäßigen Abständen durch Seitenzahlen unterbrochen, und Zeichen können falsch erkannt sein. Die Zeilen, die die Seitenzahlen enthalten, wurden mit einem Suchmuster identifiziert und entfernt. Weil die Erkennungsqualität der OCR bei den Seitenzahlen sehr schlecht war, mussten neben Ziffern auch weitere Zeichen, wie ,,l`` und ,,*`` in das Suchmuster aufgenommen werden. Möglicherweise wurden dadurch einige zum Text gehörende Zeilen gelöscht.3.3
Zu erwarten wäre, dass die Silbentrennung der gedruckten Vorlage einen so großen Teil der Wörter zertrennt, dass die meisten Sätze betroffen sind. Jedoch sind innerhalb der einzelnen Seiten Wörter am Zeilenende nur extrem selten getrennt. Da dagegen am Seitenende Wörter häufig getrennt sind, ist dies vermutlich kein Merkmal der Bücher, sondern erklärt sich als nachträgliche Korrektur derjenigen, die die Texte im Internet verbreiten, oder als automatische Anpassung durch die OCR-Software. Während getrennte Wörter für das KoKS-System nur eine höhere Quote unbekannter Wörter zur Folge haben, verringern sie in der Translation Memory Anwendung beim Fuzzy-Matching die Ähnlichkeit zum Anfragesatz unnötig.