Die elektronische Korpusrecherche frühneuhochdeutscher Texte

PD Dr. Christiane Wanzeck
Institut fuer Deutsche Philologie
der LMU Muenchen
Schellingstr. 3/RG
D-80799 Muenchen
ch.wanzeck@germanistik.uni-muenchen.de

Die Grundlage für die Entwicklung eines elektronischen Suchprogramms bildet ein digital aufbereitetes frühneuhochdeutsches Textkorpus. Der Aufbau des Korpus erfüllt festgesetzte Standards bezüglich der Textauswahl und der Textwiedergabe.

Bei der Textauswahl ist es entscheidend, dass sich die Kriterien Lokalisierung, Textsorte und Sprachform nach der proportionalen Verteilung richten. Die Texte, frühneuhochdeutsche Drucke, werden als Originaltext wiedergegeben, ohne irgendeine Veränderung in der Graphie (in UTF-8-Kodierung). Die Mehrdimensionalität der Textauswahl bietet die Basis für eine differenzierte, auf Kombinationsmöglichkeiten beruhende elektronische Auswertung. Das Suchprogramm ist auf die speziellen Bedürfnisse sprachhistorischer Recherchen hin ausgerichtet. Das heißt, es soll möglich sein, trotz der fehlenden Normierung, komplexe Suchanfragen zu beantworten. Der uneinheitlichen Graphie wird durch die unscharfe Suche begegnet. Die Volltextsuche ist in Perl geschrieben und erlaubt Suchanfragen per Regular Expressions. Parallel dazu werden GUI-Optionen entwickelt, die dann nach und nach die Suche mittels Regular Expressions ersetzen sollen.

Eine große Herausforderung bildet z. B. die Ermittlung getrennt geschriebener Mehrwortlexeme, da es schwer ist, feste Erkennungsregeln zu formulieren, ohne gleichzeitig zu viele relevante Bildungen auszuschließen. Um die automatische Erkennung zu sichern, werden die Wörter den Wortarten nach bestimmt und ihren neuhochdeutschen Lexmen zugeordnet. Die Annotationen sind zunächst für einen Text manuell erstellt worden. Bei jedem hinzukommenden Text werden die neuen Wortformen auf Übereinstimmung mit den schon vorhandenen annotierten Wortformen automatisch überprüft, sodass die manuelle Bestimmung mit der zunehmenden Textmenge immer stärker abnimmt.

Die Benutzeroberfläche ist so gestaltet, dass sowohl einfache als auch komplexe Suchanfragen gestellt werden können.