{"id":290,"date":"2005-05-20T13:47:51","date_gmt":"2005-05-20T11:47:51","guid":{"rendered":"https:\/\/www.herr-rau.de\/wordpress\/?p=290"},"modified":"2023-05-14T09:53:11","modified_gmt":"2023-05-14T07:53:11","slug":"korpusanalyse","status":"publish","type":"post","link":"https:\/\/www.herr-rau.de\/wordpress\/2005\/05\/korpusanalyse.htm","title":{"rendered":"Korpusanalyse"},"content":{"rendered":"<div style='text-align:right;'><small>(<a href='https:\/\/www.herr-rau.de\/wordpress\/2005\/05\/korpusanalyse.htm#comments'>4 Kommentare.<\/a>)<\/small> <\/div>\n<p>Ein Textkorpus ist eine feine Sache, auch f\u00fcr Lehrer, aber vor allem f\u00fcr Sprachverspielte.<\/p>\n\n\n\n<p>Korpora sind Zusammenstellungen verschiedener Texte. Das British National Corpus (BNC) untersucht zum Beispiel die englische Sprache, und hat deshalb 4124 Einzeltexte zusammengestellt, mit insgesamt \u00fcber 100 Millionen W\u00f6rtern. Die Texte stammen in einem bestimmten Verh\u00e4ltnis aus Zeitungsartikeln, Romanen, wissenschaftlichen Ve\u00f6rffentlichungen, m\u00fcndlicher Sprache und anderen Quellen.<\/p>\n\n\n\n<p>Damit hat man eine Textgrundlage. Jetzt k\u00f6nnte man zum Beispiel schon mit einem Computer das Korpus nach dem englischen Wort &#8222;beyond&#8220; durchsuchen, und erfahren, wie oft das Wort &#8222;beyond&#8220; verwendet wird. Dabei kann man feststellen, dass das Wort zu den 1000 h\u00e4ufigsten W\u00f6rtern im Englischen geh\u00f6rt &#8211; zumindest in der geschriebenen Sprache, in der gesprochenen Sprache geh\u00f6rt es nur zu den 2000 h\u00e4ufigsten W\u00f6rtern.<br>Das ist schon mal praktisch, das zu wissen, wenn man etwa ein W\u00f6rterbuch herausgeben will, vor allem eines f\u00fcr Sch\u00fcler: Da sollen ja vor allem die am h\u00e4ufigsten gebrauchten W\u00f6rter erscheinen. Und h\u00e4ufige Verwendungen vor weniger h\u00e4ufigen erscheinen.<br>Man kann untersuchen, ob bestimmte W\u00f6rter eher in gesprochener oder geschriebener Sprache erscheinen, eher in wissenschaftlichen Zusammenh\u00e4ngen oder in Zeitungsartikeln.<\/p>\n\n\n\n<p>Allerdings kann das Wort &#8222;beyond&#8220; eine Pr\u00e4position, ein Adverb oder ein Substantiv sein. Nur die Pr\u00e4position ist h\u00e4ufig, die anderen sind es nicht. (Deswegen steht im Sch\u00fclerw\u00f6rterbuch die Pr\u00e4position auch an erster Stelle.) Also enth\u00e4lt ein Korpus sinnvollerweise auch Informationen \u00fcber die Wortarten. Man sollte das Korpus auch durchsuchen k\u00f6nnen nach &#8222;beyond+PREP&#8220; oder &#8222;beyond+NOUN&#8220;. Dazu muss jemand die 100,106,008 W\u00f6rter durchgehen und bei jedem Wort die Wortart bestimmen: Ist &#8222;lives&#8220; 3. Person Singular <em>present<\/em> oder Plural des Substantivs? &#8212; Gl\u00fccklicherweise nehmen einem Computer das ab. Die Wortartbestimmung in englischer Sprache l\u00e4sst sich recht gut automatisieren. Allerdings liegt die Erfolgsquote (beim BNC) nur bei 96%. Bei den restlichen 4% vermerkt das System, dass es sich zwischen zwei Varianten nicht entscheiden kann, und stellt beide zu Verf\u00fcgung. So oder so wird es aber immer Fehler geben. Damit muss der Sprachwissenschaftler leben.<\/p>\n\n\n\n<p>Noch sind die M\u00f6glichkeiten der Korpusbenutzung aber noch nicht ersch\u00f6pft, die sch\u00f6nsten M\u00f6glichkeiten kommen erst noch:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Hei\u00dft es &#8222;the police is&#8220; oder &#8222;the police are&#8220;? F\u00fcr den ersten Fall kriegt man 44, f\u00fcr den zweiten 286 Fundstellen. Wenn man noch F\u00e4lle wie &#8222;the role of the police is&#8220; ausklammert, wird klar, dass zu &#8222;the police&#8220; ein Verb im Plural kommt, und ein Singular so selten ist, dass man das falsch nennen muss, auch wenn es daf\u00fcr einige Belege gibt.<\/li>\n\n\n\n<li>Schreibt man &#8222;grey&#8220; oder &#8222;gray&#8220;? Gut, das kann man auch im W\u00f6rterbuch nachschauen. (Aber die Ersteller von W\u00f6rterb\u00fcchern m\u00fcssen ja wiederum <em>ihre<\/em> Informationen auch irgendwoher haben.) 5456 Belege f\u00fcr &#8222;grey&#8220;, 1091 f\u00fcr &#8222;gray&#8220;. Eines ist h\u00e4ufiger, aber beide sind wohl richtig. Allerdings gibt es auch hier Sonderf\u00e4lle, die man eigentlich untersuchen m\u00fcsste.<\/li>\n\n\n\n<li>&#8222;Movable&#8220; (118 Belege) oder &#8222;moveable&#8220; (56)? Wohl beides.<\/li>\n\n\n\n<li>&#8222;Allright&#8220; (3) oder &#8222;alright&#8220; (8329)? Trotz der drei Belege, bei denen sich einer beim genaueren Hinschauen als Fehler erweist, kann man &#8222;alright&#8220; die einzig richtige Form nennen. &#8222;All right&#8220; (6435) geht nat\u00fcrlich auch.<\/li>\n\n\n\n<li>Hei\u00dft es &#8222;an example of&#8220; (5138) oder &#8222;an example for&#8220; (109)? Letzteres ist tats\u00e4chlich auch richtig, bedeutet aber etwas ganz anderes als ersteres.<\/li>\n<\/ul>\n\n\n\n<p>F\u00fcr diese Beispiele, bei denen es lediglich um die H\u00e4ufigkeit bestimmter Buchstabenkombinationen geht, kann man nat\u00fcrlich auch Google als Ersatz verwenden. Spannender ist die Untersuchung von Kollokationen. In jeder Sprache tauchen manche W\u00f6rter besonders h\u00e4ufig in der N\u00e4he von (also meist gleich vor oder nach) anderen W\u00f6rtern auf. Solche Wortkombinationen hei\u00dfen Kollokationen. Was macht man mit einem Tresor? Knacken. Und mit einem Rekord? Brechen.<br>Was taucht gerne mal vor &#8222;girl&#8220; auf? Am signifikantesten sind &#8222;little, young, dark-haired, teenage, McLaren, clever&#8220;. McLaren? Alle Belege stammen aus dem gleichen Roman, bitte ignorieren. Am h\u00e4ufigsten sind, in absteigender H\u00e4ufigkeit, &#8222;little, young, good, old, other, pretty, nice, golden, beautiful&#8220;.<br>Und zu &#8222;boy&#8220;? Signifikant: &#8222;little, naughty, old&#8220; und andere, die nur sehr selten erscheinen (aber eben nur vor &#8222;boy&#8220;). H\u00e4ufig: &#8222;little, old, good, small, young, dear, my&#8220;.<br>Was f\u00fcr ein &#8222;conscience&#8220;, Gewissen, hat man? Im Deutschen &#8222;schlecht, sozial, gut, rein&#8220;, im Englischen: &#8222;social, clear, guilty&#8220;, &#8222;good, bad&#8220; gibt es auch, aber weit abgeschlagen.<\/p>\n\n\n\n<p>Links:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><a href=\"http:\/\/www.natcorp.ox.ac.uk\/\">British National Corpus (BNC)<\/a><\/li>\n\n\n\n<li>Eine Seite mit <a href=\"http:\/\/www.linguistic-corner.uni-hannover.de\/_sprachkorpora.html?&amp;L=1\">vielen Links zu verschiedenen Korpora und Korpuslinguistik<\/a>.<\/li>\n\n\n\n<li>Nachtrag: <a href=\"http:\/\/www.dwds.de\/\">http:\/\/www.dwds.de\/<\/a><\/li>\n\n\n\n<li>Das <a href=\"http:\/\/wortschatz.informatik.uni-leipzig.de \">Wortschatz-Lexikon<\/a> der Uni Leipzig bietet M\u00f6glichkeiten zur Bildung von Anagrammen und vor allem zur Kollokationsabfrage (&#8222;Suche Adjektive zu einem Substantiv&#8220; bzw. &#8222;Suche Verben zu einem Substantiv&#8220;). Au\u00dferdem gibt&#8217;s dort die aktuellen W\u00f6rter des Tages (aus Tageszeitungen und Nachrichtendiensten extrahiert) und viel Wissenswertes um W\u00f6rter.<\/li>\n<\/ul>\n\n\n\n<p><noscript>&amp;amp;amp;amp;lt;a href=&#8220;http:\/\/del.icio.us\/HerrRau\/korpora&#8220;&amp;amp;amp;amp;gt;my del.icio.us&amp;amp;amp;amp;lt;\/a&amp;amp;amp;amp;gt;<\/noscript><\/p>\n","protected":false},"excerpt":{"rendered":"<p>(4 Kommentare.) Ein Textkorpus ist eine feine Sache, auch f\u00fcr Lehrer, aber vor allem f\u00fcr Sprachverspielte. Korpora sind Zusammenstellungen verschiedener Texte. Das British National Corpus (BNC) untersucht zum Beispiel die englische Sprache, und hat deshalb 4124 Einzeltexte zusammengestellt, mit insgesamt \u00fcber 100 Millionen W\u00f6rtern. Die Texte stammen in einem bestimmten Verh\u00e4ltnis aus Zeitungsartikeln, Romanen, wissenschaftlichen [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[5],"tags":[46,86],"class_list":["post-290","post","type-post","status-publish","format-standard","hentry","category-schule-mal-gemacht","tag-sprache","tag-wissenschaftliches"],"jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"jetpack_likes_enabled":true,"_links":{"self":[{"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/posts\/290","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/comments?post=290"}],"version-history":[{"count":1,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/posts\/290\/revisions"}],"predecessor-version":[{"id":56469,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/posts\/290\/revisions\/56469"}],"wp:attachment":[{"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/media?parent=290"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/categories?post=290"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/tags?post=290"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}