Korpusanalyse

Ein Textkorpus ist eine feine Sache, auch für Lehrer, aber vor allem für Sprachverspielte.

Korpora sind Zusammenstellungen verschiedener Texte. Das British National Corpus (BNC) untersucht zum Beispiel die englische Sprache, und hat deshalb 4124 Einzeltexte zusammengestellt, mit insgesamt über 100 Millionen Wörtern. Die Texte stammen in einem bestimmten Verhältnis aus Zeitungsartikeln, Romanen, wissenschaftlichen Veörffentlichungen, mündlicher Sprache und anderen Quellen.

Damit hat man eine Textgrundlage. Jetzt könnte man zum Beispiel schon mit einem Computer das Korpus nach dem englischen Wort „beyond“ durchsuchen, und erfahren, wie oft das Wort „beyond“ verwendet wird. Dabei kann man feststellen, dass das Wort zu den 1000 häufigsten Wörtern im Englischen gehört – zumindest in der geschriebenen Sprache, in der gesprochenen Sprache gehört es nur zu den 2000 häufigsten Wörtern.
Das ist schon mal praktisch, das zu wissen, wenn man etwa ein Wörterbuch herausgeben will, vor allem eines für Schüler: Da sollen ja vor allem die am häufigsten gebrauchten Wörter erscheinen. Und häufige Verwendungen vor weniger häufigen erscheinen.
Man kann untersuchen, ob bestimmte Wörter eher in gesprochener oder geschriebener Sprache erscheinen, eher in wissenschaftlichen Zusammenhängen oder in Zeitungsartikeln.

Allerdings kann das Wort „beyond“ eine Präposition, ein Adverb oder ein Substantiv sein. Nur die Präposition ist häufig, die anderen sind es nicht. (Deswegen steht im Schülerwörterbuch die Präposition auch an erster Stelle.) Also enthält ein Korpus sinnvollerweise auch Informationen über die Wortarten. Man sollte das Korpus auch durchsuchen können nach „beyond+PREP“ oder „beyond+NOUN“. Dazu muss jemand die 100,106,008 Wörter durchgehen und bei jedem Wort die Wortart bestimmen: Ist „lives“ 3. Person Singular present oder Plural des Substantivs? — Glücklicherweise nehmen einem Computer das ab. Die Wortartbestimmung in englischer Sprache lässt sich recht gut automatisieren. Allerdings liegt die Erfolgsquote (beim BNC) nur bei 96%. Bei den restlichen 4% vermerkt das System, dass es sich zwischen zwei Varianten nicht entscheiden kann, und stellt beide zu Verfügung. So oder so wird es aber immer Fehler geben. Damit muss der Sprachwissenschaftler leben.

Noch sind die Möglichkeiten der Korpusbenutzung aber noch nicht erschöpft, die schönsten Möglichkeiten kommen erst noch:

  • Heißt es „the police is“ oder „the police are“? Für den ersten Fall kriegt man 44, für den zweiten 286 Fundstellen. Wenn man noch Fälle wie „the role of the police is“ ausklammert, wird klar, dass zu „the police“ ein Verb im Plural kommt, und ein Singular so selten ist, dass man das falsch nennen muss, auch wenn es dafür einige Belege gibt.
  • Schreibt man „grey“ oder „gray“? Gut, das kann man auch im Wörterbuch nachschauen. (Aber die Ersteller von Wörterbüchern müssen ja wiederum ihre Informationen auch irgendwoher haben.) 5456 Belege für „grey“, 1091 für „gray“. Eines ist häufiger, aber beide sind wohl richtig. Allerdings gibt es auch hier Sonderfälle, die man eigentlich untersuchen müsste.
  • „Movable“ (118 Belege) oder „moveable“ (56)? Wohl beides.
  • „Allright“ (3) oder „alright“ (8329)? Trotz der drei Belege, bei denen sich einer beim genaueren Hinschauen als Fehler erweist, kann man „alright“ die einzig richtige Form nennen. „All right“ (6435) geht natürlich auch.
  • Heißt es „an example of“ (5138) oder „an example for“ (109)? Letzteres ist tatsächlich auch richtig, bedeutet aber etwas ganz anderes als ersteres.

Für diese Beispiele, bei denen es lediglich um die Häufigkeit bestimmter Buchstabenkombinationen geht, kann man natürlich auch Google als Ersatz verwenden. Spannender ist die Untersuchung von Kollokationen. In jeder Sprache tauchen manche Wörter besonders häufig in der Nähe von (also meist gleich vor oder nach) anderen Wörtern auf. Solche Wortkombinationen heißen Kollokationen. Was macht man mit einem Tresor? Knacken. Und mit einem Rekord? Brechen.
Was taucht gerne mal vor „girl“ auf? Am signifikantesten sind „little, young, dark-haired, teenage, McLaren, clever“. McLaren? Alle Belege stammen aus dem gleichen Roman, bitte ignorieren. Am häufigsten sind, in absteigender Häufigkeit, „little, young, good, old, other, pretty, nice, golden, beautiful“.
Und zu „boy“? Signifikant: „little, naughty, old“ und andere, die nur sehr selten erscheinen (aber eben nur vor „boy“). Häufig: „little, old, good, small, young, dear, my“.
Was für ein „conscience“, Gewissen, hat man? Im Deutschen „schlecht, sozial, gut, rein“, im Englischen: „social, clear, guilty“, „good, bad“ gibt es auch, aber weit abgeschlagen.

Links:

Aktualisierte Links zum Thema:


Tagged: Tags

4 Thoughts to “Korpusanalyse

  1. Eine sehr späte Reaktion, aber da dieser Post (Korpusanalyse… das Post, der Post, die Post? ;-) ) kürzlich verlinkt wurde: Für Korpora-Interessierte lohnt sich sicher ein Demo-Account der Sketch Engine: http://www.sketchengine.co.uk/ – das Teil kann noch einiges mehr als nur KWIC.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.