neo-layout/statistik/Leipzig
dennis ada143f602 Gemeinsame README für die Korpusse angelegt. 2010-05-06 17:50:21 +00:00
..
1gramme.tab.txt Ergänzung: Die n-Gramm-Dateien zum unveränderten Leipziger Korpus. 2010-05-06 16:55:04 +00:00
1gramme.txt Ergänzung: Die n-Gramm-Dateien zum unveränderten Leipziger Korpus. 2010-05-06 16:55:04 +00:00
2gramme.tab.txt Benennungen vereinheitlicht. 2010-05-06 17:40:20 +00:00
2gramme.txt Ergänzung: Die n-Gramm-Dateien zum unveränderten Leipziger Korpus. 2010-05-06 16:55:04 +00:00
3gramme.tab.txt Benennungen vereinheitlicht. 2010-05-06 17:40:20 +00:00
3gramme.txt Ergänzung: Die n-Gramm-Dateien zum unveränderten Leipziger Korpus. 2010-05-06 16:55:04 +00:00
README.txt Gemeinsame README für die Korpusse angelegt. 2010-05-06 17:50:21 +00:00
häufigsteBigramme10000de.txt Statistik über die rel. Häufigkeit von Mono/Bi/Trigrammen 2008-08-06 22:53:17 +00:00
häufigsteBuchstaben10000de.txt Statistik über die rel. Häufigkeit von Mono/Bi/Trigrammen 2008-08-06 22:53:17 +00:00
häufigsteTrigramme10000de.txt Statistik über die rel. Häufigkeit von Mono/Bi/Trigrammen 2008-08-06 22:53:17 +00:00

README.txt

== häufigste*.txt ==
Die Dateien basieren auf der von der Uni Leipzig erstellten Liste der 10000
häufigsten Wörter (bzw. Wortformen) der deutschen Sprache¹.
Groß- und Kleinschreibung sowie Sonderzeichen (Bindestriche, Leerzeichen,
Apostrophe, Buchstaben mit Akzenten, Zahlen, …) wurden ignoriert.
Gemäß des Zipfschen Gesetzes² wurden die Häufigkeiten der Wörter annähernd
rekonstruiert (a=0,83).

Anschließend wurden die Häufigkeiten des Auftreten einzelner Buchstaben sowie
Bi- und Trigramme mit den Zipf-Wahrscheinlichkeiten gewichtet, aufsummiert,
sortiert und auf 100% renormiert.

Somit verstehen sich die Zeilen in allen Dateien als relative Häufigkeit und Name
des Mono/Bi/Trigramms.


¹ http://wortschatz.uni-leipzig.de/html/wliste.html
  Die Uni Leipzig weist jedoch selbst darauf hin, dass die Reihenfolge von der
  Auswahl der Quelle abhängt
² http://de.wikipedia.org/wiki/Zipfsches_Gesetz
  Dabei treten Fehler sowohl bei den häufigsten Wörtern auf, deren berechnete
  Häufigkeit zu hoch liegt, als auch bei den seltenen Wörtern, da bereits die
  häufigsten 10000 Wörter auf 100% gesetzt werden.