Journal for Language Technology and Computational Linguistics



Yüklə 3,56 Mb.
Pdf görüntüsü
səhifə8/14
tarix22.07.2018
ölçüsü3,56 Mb.
#57639
1   ...   4   5   6   7   8   9   10   11   ...   14


 

 

JLCL 2016 - Band 31(2) 17-24 



Roland Mittmann 

 

Automatisierter Abgleich des Lautstandes althochdeut-



scher Wortformen 

  

  



Abstract 

Um Texte einer Sprache automatisiert auf ihren möglichen Entstehungszeitraum und ihre dialektale 

Zugehörigkeit  hin  zu  untersuchen,  werden  für jedes  erwartete  Graphem und  jede  Flexionsendung 

zunächst  Entsprechungsregeln  zwischen  einer  idealisierten  Sprachform  und  den  Sprachformen  in 

Grammatiken  beschriebener  Zeit-Dialekt-Räume  erfasst.  Anschließend  werden  mithilfe  eines  Com-

puterprogramms unter Anwendung dieser Regeln die belegten Wortformen mit ihren Entsprechun-

gen in der idealisierten Sprachform abgeglichen und für jeden Text die Übereinstimmungsgrade mit 

den einzelnen Zeit-Dialekt-Räumen angegeben. Exemplarisch wird dieser Abgleich für eine althoch-

deutsche  Wortform  beschrieben  und  das  Ergebnis  der  Analyse  des  zugehörigen  Gesamttextes 

dargestellt. 





Untersuchungsthema 

Seit  jeher  verändern  sich  Sprachen  im  Laufe  der  zeitlichen  Entwicklung.  Sobald  ihre  Sprecherge-

meinschaften in verschiedene Gruppen zerfallen, die nicht mehr dauerhaft miteinander in Kontakt 

stehen, entwickeln sie zudem verschiedene Varietäten. Solange die Normierung einer Sprache nicht 

erfolgt ist, bleibt die textliche Überlieferung daher sprachlich uneinheitlich. 

Auch  innerhalb  eines  Textes  können  Schwankungen  auftreten,  etwa  wenn  Sprecher  verschiedener 

Dialekte  am  selben  Text  arbeiten  oder  einen  bestehenden  Text  korrigieren  (vgl.  etwa  B

RAU-


NE

/R

EIFFENSTEIN



 2004, § 3 und Anm. 1). Ein einzelner Autor kann ebenfalls verschiedenen dialektalen 

Einflüssen  unterworfen  sein  oder  die  im  Laufe  seines  Lebens  erfolgte  sprachliche  Veränderung  in 

seinen  Niederschriften  wiedergeben.  Da  vor  der  Erfindung  des  Buchdrucks  Texte  allein  durch 

Abschrift vervielfältigt wurden, kam es schließlich auch seitens der Kopisten – bewusst oder unbe-

wusst – zu sprachlichen Anpassungen bei dialektalen Formen  bzw. infolge der zeitlichen Entwick-

lung. 


Sind zu einem Teil der textlichen Überlieferung einer Sprache keine genaueren zeitlichen und 

örtlichen Angaben bekannt, erscheint es denkbar, diese automatisiert auf ihre Übereinstimmung mit 

verschiedenen Zeit-Dialekt-Räumen – also Zeitabschnitten mit Bezug auf die verschiedenen örtli-

chen Varietäten – zu untersuchen. Diese Untersuchung wird im Folgenden beschrieben. Vorausset-

zung dafür ist, dass Angaben zu den üblichen Entsprechungen der verschiedenen Phonem-Graph-

Entsprechungen (Lautverschriftungen, vgl. M

ITTMANN

 2015b, 248) und der Flexionsendungen in den 



einzelnen Zeit-Dialekt-Räumen vorliegen.   

 

 



 

 

 



 

 

 




 

 

 



 

 

JLCL 



                            Mittmann 

 

18 





Untersuchungsobjekt und Datengrundlage 

Als Untersuchungssprache wird das Althochdeutsche gewählt, das ab etwa 750 überliefert ist und 

um 1050 ins Mittelhochdeutsche übergeht (vgl. P

AUL ET AL

.

 

2007, § E 7). Das althochdeutsche Text-



korpus umfasst etwa 560.000 Wortformen und erscheint damit für die Untersuchung hinreichend 

groß.  Ein  Teil  des  Korpus  sind  umfangreiche  Texte  mit  einheitlicher  Sprachform  und  bekannter 

Überlieferungsgeschichte  (etwa  die  Werke  Notkers  des  Deutschen  mit  ca.  320.000  Wortformen)

1

 



Daneben umfasst es aber auch zahlreiche mittelgroße und kleinere Texte, deren Herkunft oft nicht 

genau  bekannt  ist,  sodass  sich  die  Angaben  in  den  Grammatiken  zu  zeitlichen  und  dialektalen 

Unterschieden beim Laut- und Formenstand nicht auf sie stützen können. Ein Zirkelschluss ist für 

diese  Texte  also  ausgeschlossen,  und  die  erstgenannten  können  zur  Überprüfung  der  Untersu-

chungsmethode dienen. 

Das Althochdeutsche weist eine deutlich erkennbare zeitliche Entwicklung auf und lässt sich in fünf 

gut bezeugte Dialektgebiete (Alemannisch, Bairisch, Ostfränkisch, Rheinfränkisch und Mittelfrän-

kisch, vgl. B

RAUNE

/R

EIFFENSTEIN



 2004, §§ 4-6) gliedern. Zur Abgrenzung werden zudem drei west-

germanische Nachbarsprachen (Altsächsisch, Altniederfränkisch und Langobardisch, vgl. B

RAU-

NE

/R



EIFFENSTEIN

 2004, § 2 u. Anm. 1) bei der Untersuchung hinzugenommen.

2

 

Die für die Untersuchung verwendeten Daten sind auf Grundlage des DFG-geförderten Projektes 



Referenzkorpus Altdeutsch

 erstellt worden. Das entstandene Korpus umfasst alle althochdeutschen 

und altsächsischen Texte und weist eine umfangreiche morphologische Annotation auf (vgl. 

www.deutschdiachrondigital.de

, L

INDE


/M

ITTMANN 


2013

 

sowie



 

M

ITTMANN 



2013). 



Vorbereitung der Texte 

Beleg 


Kestírnis

 

Lemma 



Gistirni 

Übersetzung 

Gestirn 

Wortart Lemma 

NA 

Wortart Beleg 



NA 

Flexion Lemma 

ja_Neut 

Flexion Beleg 1 

ja_Neut 

Flexion Beleg 2 

Sg_Gen 

Abbildung 1: Korpusauszug aus der 



St. Galler Schularbeit

 (vereinfacht) 

Ausgehend von den im Korpus angegebenen Lemmata und morphologischen Angaben werden 

mithilfe eines Computerprogramms zunächst idealisierte Wortformen gebildet, die den für die 

Untersuchung der zeitlichen und dialektalen Zuordnung benötigten Abgleich mit den belegten 

Wortformen ermöglichen (vgl. M

ITTMANN

 2015a, 68-74). Dazu werden je nach morphologischen 



Werten Endungen angefügt oder ersetzt; bei Umlaut oder starken Verben auch Vokalersetzungen 

im Inlaut durchgeführt. Sowohl das für die Lemmatisierung der althochdeutschen Texte verwendete 

Wörterbuch (S

PLETT


 1993) als auch die zur Ermittlung der Flexionsformen verwendete Referenz-

grammatik (B

RAUNE

/R

EIFFENSTEIN



 2004) orientieren sich am ostfränkischen Dialekt um 830, sodass 

auch die idealisierten Wortformen den größten Teil der im ältesten Althochdeutschen noch be-

wahrten lautlichen Unterschiede wiedergeben (vgl. M

ITTMANN


 2015b, 249). 

Abbildung 1 zeigt eine Wortform aus dem 

Referenzkorpus 

mitsamt einigen Annotationszeilen. Um 

die  idealisierte  Wortform  zu  erzeugen,  wird  die  Ersetzungsregel  für  die  Angaben 

„N

3



,  ja, 


Yüklə 3,56 Mb.

Dostları ilə paylaş:
1   ...   4   5   6   7   8   9   10   11   ...   14




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə