Journal for Language Technology and Computational Linguistics



Yüklə 3,56 Mb.
Pdf görüntüsü
səhifə9/14
tarix22.07.2018
ölçüsü3,56 Mb.
#57639
1   ...   6   7   8   9   10   11   12   13   14

 

 

 



 

JLCL 2016 - Band 31(2) 17-24 

Automatisierter Abgleich des Lautstandes althochdeutscher Wortformen 

19 


{Masc|Neut}, Sg, Gen“

 (Genitiv Singular eines maskulinen oder neutralen 

ja

-stämmigen Substantivs) 



– also die grau hinterlegten Informationen – auf das Lemma angewendet. Das auslautende 

-i

 wird 



somit  durch 

-ies


  ersetzt,  sodass  eine  idealisierte  Wortform 

gistirnies

  entsteht,  die  dann  mit  dem 

belegten 

kestírnis

 verglichen werden kann.

4

 



Vorbereitung der Untersuchung 

Vor  der  Durchführung  der  Untersuchung  müssen  noch  Entsprechungsregeln  zwischen  den  ideali-

sierten  und  den  belegten  Wortformen  mit  Bezug  auf  die  jeweiligen  Zeit-Dialekt-Räume  erstellt 

werden. Dafür wird zunächst in Anlehnung an die Angaben bei B

RAUNE

/R

EIFFENSTEIN



 (2004) die Zeit 

von 750 bis 1150 in acht 50-Jahres-Abschnitte unterteilt, damit auch sprachliche Entwicklungen zum 

Mittelhochdeutschen (ca. 1050–1350) hin erfasst sind. Auf diese Weise ergeben sich in Kombination 

mit  den  zusammen  acht  Dialekten  und  Nachbarsprachen  64  Zeit-Dialekt-Räume,  etwa 

„Aleman-

nisch, 900–950“. 

Anschließend werden auf Grundlage von Referenzgrammatiken für die althochdeutschen (B

RAU-


NE

/R

EIFFENSTEIN



 2004)

 5

 und frühmittelhochdeutschen Dialekte (P



AUL ET AL

. 2007) sowie die Nach-

barsprachen – G

ALLÉE


/T

IEFENBACH

 (1993) fürs Altsächsische, B

REMMER


/Q

UAK 


(1992) fürs Altnieder-

fränkische/Altniederländische und B

RUCKNER

 (1895) fürs Langobardische – Entsprechungsregeln 



erstellt. Die einzelnen Phonem-Graph-Entsprechungen werden dabei nach ihrer Stellung im Wort 

unterschieden, um der jeweils unterschiedlichen Entwicklung Rechnung zu tragen: Konsonanten 

nach Anlaut, Inlaut und Auslaut; Vokale (und Diphthonge) nach Präfix, Tonsilbe, Mittelsilbe und 

Endsilbe.

6

 Darüber hinaus ist in zahlreichen Fällen auch die Umgebung der jeweiligen Phoneme 



entscheidend, wie Abbildung 2 zeigt: 

 



> {g|k|c} / #_i 

für “Alemannisch oder Bairisch, 750–1050” 

> {g|gh|j|Ø} / #_i 



für 

“Altsächsisch” 

(ohne zeitliche Eingrenzung) 

> e / _rC (Tonsilbe)  für “Altniederfränkisch oder Altsächsisch” 



Abbildung 2: Beispiele für Entsprechungsregeln für spezifische Zeit-Dialekt-Räume 

Neben den Phonem-Graph-Entsprechungen werden für die flektierenden Wortarten auch Flexions-

endungen mit gleicher Funktion, aber über den unterschiedlichen Lautstand hinaus auch dialektal 

unterschiedlicher morphologischer Bildeweise, betrachtet. So lässt sich etwa beim Nominativ Plural 

der 

a

-stämmigen maskulinen Substantive die altalemannische Endung 



 auf gemeingermanisches 

rekonstruiertes 

*-o


 

z

 und schließlich auf urindogermanisches 



*-oes

 zurückführen, die altsächsische 

Endung 

-os


 dagegen auf gemeingermanisches 

*-o


 

siz


 und schließlich auf urindogermanisches 

*-óeses 


(vgl. K

ROGH


 1996, 295 i. V. m. B

AMMESBERGER

 1990, 43 f.).

7

 Bei der althochdeutschen Endungsvari-



ante 

-a

 wiederum liegt wohl eine Übernahme der gleichlautenden Akkusativendung vor (vgl. K



ROGH

 

ebd.). 



Auf diese Weise ergeben sich 707 Entsprechungsregeln: 203 für Flexionsendungen (plus 21 Regeln 

für Stammallomorphie) sowie 483 für Phonem-Graph-Entsprechungen (166 für Konsonanten und 

317 für Vokale). 



Durchführung der Untersuchung 

Für jeden Text wird eine Wort-für-Wort-Prüfung durchgeführt, indem die Entsprechungsregeln auf 

dessen einzelne Phonem-Graph-Entsprechungen und Flexionsendungen angewendet werden. Dabei 



 

 

 



 

 

JLCL 



                            Mittmann 

 

20 



wird berücksichtigt, dass das Korpus nur wortweise aligniert ist und oft keine 1:1-Zuordnungen der 

Phonem-Graph-Entsprechungen zueinander vorliegen. Im Althochdeutschen gilt, von Ausnahmen 

abgesehen, Anfangsbetonung, und aufgrund der schon in ältester Zeit (vgl. B

RAUNE


/R

EIFFENSTEIN

 

2004, § 54) beginnenden Vokalreduktion in den unbetonten Silben – bis hin zum Schwund – 



sowie des Auftretens epenthetischer Vokale und Konsonanten (vgl. ebd., § 69) ist vor allem

 

in den 



Mittelsilben mit mangelnden Entsprechungen zu rechnen. Um möglichst viele automatisierte Laut-

zuordnungen zu ermöglichen, erfolgt die Prüfung daher von beiden Wortenden aus zur Mitte hin. 

Da Komposita und Präfixe im Korpus nicht markiert sind, wird jedoch auch in Mittel- und Endsil-

ben geprüft, ob ein betonter Vokal vorliegt. Zudem wird die Möglichkeit von Doppel- und Einfach-

schreibung stets mitberücksichtigt. 

Sofern das Wort flektiert, wird zunächst die Endung ermittelt und mit den in den einzelnen Zeit-

Dialekt-Räumen bezeugten Formen abgeglichen. Unterschiede zwischen verschiedenen Endungsfor-

men mit dem gleichen zugrundeliegenden Lautstand werden an dieser Stelle nicht berücksichtigt. 

Unabhängig davon erfolgt dann der Abgleich eines eventuellen auslautenden (sowie eventueller 

diesem vorangehenden inlautender) Konsonanten, danach in mehrsilbigen Wörtern des Endsilben-

vokals und des diesem vorangehenden inlautenden Konsonanten. Ist die Endung hiervon noch nicht 

vollständig abgedeckt, werden noch weitere Mittelsilbenvokale und inlautende Konsonanten abgegli-

chen. Anschließend wird der Abgleich am Wortanfang mit einem eventuellen anlautenden (sowie 

eventuellen diesem folgenden inlautenden) Konsonanten und dem Tonsilbenvokal fortgesetzt

gefolgt von Mittelsilbenvokalen und inlautenden Konsonanten. Falls der Lautstand den Beginn mit 

einem unbetonten Präfix zulassen könnte, wird diese Möglichkeit für den ersten Vokal mit einbezo-

gen. 

Findet sich keine passende Entsprechungsregel, bricht das Programm die Untersuchung der Wort-



form vom Ende zur Mitte hin bzw. vom Anfang zur Mitte hin ab. Erfolgt der Abbruch unmittelbar 

im Auslaut oder Anlaut, wird die Prüfung also ausschließlich in die jeweils andere Richtung durch-

geführt. Passen sowohl die Endung als auch Auslaut und Anlaut nicht, wird die Wortform vollstän-

dig übersprungen, da in diesem Fall von einer Fehlzuweisung auszugehen ist, die bei einem Korpus 

dieser Größe nicht ausgeschlossen werden kann. 

Um den Übereinstimmungsgrad eines Textes mit den einzelnen Zeit-Dialekt-Räumen zu ermitteln, 

wird dieser mit jeder Regelanwendung für alle 64 Zeit-Dialekt-Räume – jeweils beginnend bei 0 – 

erhöht oder gesenkt. Da eine nur in wenigen Zeit-Dialekt-Räumen verbreitete Lautform für die 

Zuordnung eines Textes als deutlich signifikanter gelten kann als eine, die in fast allen Zeit-Dialekt-

Räumen vorkommt, wird jedes Mal die Gesamtzahl der Zeit-Dialekt-Räume (64) durch die Zahl der 

(nicht) zutreffenden Zeit-Dialekt-Räume geteilt und 1 davon abgezo gen: So ergibt sich etwa eine Ver-

änderung von ± 0, wenn alle Zeit-Dialekt-Räume zutreffen (64/64 - 1), und eine Veränderung von 

+ 4,3

  für die in Abbildung 2 zuoberst genannte Regel, die auf zwölf Zeit-Dialekt-Räume zutrifft 



(64/12 - 1). Der ermittelte absolute Übereinstimmungsgrad jedes einzelnen Zeit-Dialekt-Raums wird 

schließlich prozentual auf den Übereinstimmungsgrad eines fiktiven („idealen“) Zeit-Dialekt-Raums 

bezogen, der dem jeweiligen Text exakt entspricht, sodass sich ein relativer Übereinstimmungsgrad 

ergibt. 


 

 



Yüklə 3,56 Mb.

Dostları ilə paylaş:
1   ...   6   7   8   9   10   11   12   13   14




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə