next up previous contents index
Nächste Seite: Aufbereitung und Normalisierung Aufwärts: Korpusaufbereitung für CAT-Systeme Vorherige Seite: Korpusquellen   Inhalt   Index


Vorverarbeitung

Die Dokumente des Korpus müssen einige Vorverarbeitungsschritte durchlaufen, bevor sie in den Programmen des KoKS-Projekts und den für diese Arbeit speziell erstellten Softwarewerkzeugen verwendet werden können. Die Vorverarbeitung ist bis auf die zusätzliche Indizierung mit der des KoKS-Projekts identisch. Die einzelnen Schritte beschreiben () im KoKS-Abschlussbericht ausführlich. Hier ist die Darstellung knapper gehalten und richtet sich vor allem auf Aspekte, die für diese Arbeit relevant sind oder im KoKS-Abschlussbericht nicht behandelt werden.

Ziel der Vorverarbeitung ist eine einheitliche Speicherung der Dokumente und zusätzlicher Information, die für die Anwendung relevant sind, wie z.B. das Satzalignment, das sowohl im KoKS-System als auch in dieser Arbeit Ausgangspunkt für jede Weiterverarbeitung ist. Während beim KoKS-System zusätzlich die Annotation der Wortarten im Vordergrund stehen, spielen in dieser Arbeit flexible Suchmöglichkeiten eine wichtigere Rolle.



Unterabschnitte
next up previous contents index
Nächste Seite: Aufbereitung und Normalisierung Aufwärts: Korpusaufbereitung für CAT-Systeme Vorherige Seite: Korpusquellen   Inhalt   Index
JWaGnER@CoMpUtING.Dcu.Ie