XML-basierte Erfassungsstandards für koloniale Lexikographien amerindischer Sprachen am Beispiel des K'iche'
Gegenstand dieses Projekts ist die Erarbeitung infrastruktureller Grundlagen für die korpusorientierte Erfassung kolonialer Wörterbücher der Mayasprache K'iche'.
Kontext
Das K'iche' ist eine der historisch besser dokumentierten Sprachen des kolonialen Amerikas. Das Korpus erhaltener Quellen umfasst missionarslinguistische Kompilationen im Form von Wörterbüchern und Grammatiken, christliche Lehrtexte sowie Texte aus der Hand indigener Autoren, die unter anderem das Popol Wuj und andere zentrale Quellen zur Ethnohistorie des postklassischen Hochlands von Guatemala einschließen.
Die lexikalische Semantik des kolonialen K'iche' wurde bislang nicht systematisch untersucht. Dabei sind missionarslinguistische Wörterbücher nicht selten die einzigen Quellen, um Wortbedeutungen in den ethnohistorischen Texten zu erschließen. Die kolonialen Lexikographien wurden primär für das Sprachstudium der Missionare kompiliert und enthalten einen auf die Vermittlung christlicher Inhalte zugeschnittenen Wortschatz. Dieser Wortschatz ist das Produkt der kolonialen Situation, wobei die Übersetzung christlicher Konzepte ins K'iche' sowohl durch die Schaffung von Neologismen als auch durch die Redefinition semantischer Bezüge bereits bestehender Termini erfolgte. Dieser Prozess war nicht standardisiert und die Übersetzungsstrategien der Missionare unterschieden sich in Abhängigkeit von der Ordenszugehörigkeit, Zeitstellung etc. Koloniale Wörterbücher und doktrinale Texte weisen daher multiple und divergente Übersetzungskorrelationen auf, so dass die semantischen Bezüge vieler kolonial dokumentierter K'iche'-Lexeme uneindeutig sind.
Voraussetzung für die Klärung der lexikalischen Bedeutungsbezüge und der Auswirkungen von Christianisierungsprozessen auf die Entwicklung des Wortschatzes im kolonialen K'iche' ist eine systematische lexikographische Erfassung der kolonialen Quellen. Die methodischen Grundlagen der Kompilation eines solchen Korpus sind Gegenstand des hier vorgestellten Projekts.
Projekt
Das Ziel des Projekts ist es, Auszeichnungsformate zu erarbeiten, mit denen sich die kolonialen Wörterbücher des K'iche' in ein maschinenlesbares Textkorpus im XML-Standard überführen lassen, das eine semantische Auswertung des kolonialen K'iche'-Lexikons ermöglicht. Hierzu ist es notwendig die Besonderheiten kolonialer Lexikographien herauszuarbeiten und einheitliche Erfassungsstandards zu definieren, die den bisherigen TEI-Annotationsstandard erweitern und später auch zur Erfassung anderer kolonialer Sprachen verwendet werden können.
Sowohl Spanisch als auch K'iche' können in den Wörterbüchern als Matrixsprachen fungieren. Für einzelne Einträge werden meist mehrere Übersetzungsvarianten angegeben, wobei die Wörterbücher neben Einzeleinträgen in der Regel auch diskursive Satzbeispiele enthalten. Das Kernproblem der Erfassung bilden jedoch die nicht standardisierten kolonialen Orthographien. Zur Verschriftlichung des K'iche' wurde das spanische Alphabet verwendet und durch Sonderzeichen ergänzt, welche die nicht im Spanischen vorhandenen Phoneme der Mayasprache abbildeten (z.B. k' = <4>, q = <k>, q' = <3>). Diese im 16. Jh. etablierte sogenannte La Parra-Orthographie wurde jedoch nicht einheitlich und zum Teil fehlerhaft bzw. übergeneralisierend angewendet. Um die einzelnen Lexeme maschinell suchbar machen und multiple semantische Korrelationen erfassen zu können, ist es notwendig, die kolonialzeitliche Verschriftung in die phonembasierte Standardorthographie des K'iche' zu transliterieren. Dieser Transliterationsprozess setzt die semantische Zuordnung und morphologische Analyse der kolonialen Lexikon-Einträge voraus. Das K'iche' ist wie die meisten amerindischen Sprachen morphologisch agglutinierend. Wortformen müssen daher bis auf das Lemma bzw. die Wortwurzel heruntergebrochen werden, um einzelne Lexeme systematisch suchbar zu machen. In diesem Analyseprozess erfolgt eine Bedeutungszuschreibung des Lemmas, die der Grundorganisation der Daten dient und revidierbar sein muss.
Transliteration, Lemmatisierung und Glossierung lassen sich als einzelne Analyseschritte nicht systematisch voneinander trennen. Um in diesem Prozess die Fehlerquellen zu minimieren, wird in der aktuellen Pilotphase des Projekts ein spezielles Software-Tool zur XML-Annotation programmiert, das das Auszeichnungsverfahren halbautomatisiert unterstützt und den Arbeitsprozess im Vergleich mit herkömmlichen XML-Editoren vereinfacht und beschleunigt. In dieser Entwicklungsphase werden Auschnitte aus kolonialen Wörterbüchern verschiedener Formate mit Hilfe des Tools for Systematic Annotation of Colonial K'iche' (TSACK) exemplarisch analysiert. Die Ergebnisse bilden die methodischen Voraussetzungen für die umfassende Auszeichnung der K'iche'-Lexikographien im Rahmen weiterführender Forschungsvorhaben. Die definierten Erfassungskriterien und die Software können entsprechend auf andere amerindische Sprachen angepasst und nachgenutzt werden.
TSACK - Tool for Systematic Annotation of Colonial K'iche'
Finanzierung
Die Forschungsarbeit wird seit Oktober 2013 über das Maria von Linden-Förderprogramm des Gleichstellungsbüros der Rheinischen Friedrich-Wilhelms-Universität mit einer wissenschaftlichen Hilfskraftstelle für die Laufzeit von einem Jahr unterstützt.
Verantwortlich
jun. Prof. Dr. Frauke Sachse (Rheinische Friedrich-Wilhelms-Universität)
Prof. Dr. Michael Dürr (Freie Universität Berlin)
Christian W.R. Klingler M.A. (Wissenschaftliche Hilfskraft; Programmierung)