neo-layout/statistik/Leipzig-Karl
dennis ddcc485386 Benennungen vereinheitlicht. 2010-05-06 17:40:20 +00:00
..
1gramme.mod.tab.txt Benennungen vereinheitlicht. 2010-05-06 17:40:20 +00:00
1gramme.mod.txt Ergänzung: Die Dateien des von Karl Köckemann überarbeiteten Leipziger Korpus (die eigentliche Korpus fehlt jedoch, da 100 MB für eine einzige Datei 2010-05-05 18:33:47 +00:00
2gramme.mod.tab.txt Benennungen vereinheitlicht. 2010-05-06 17:40:20 +00:00
2gramme.mod.txt Ergänzung: Die Dateien des von Karl Köckemann überarbeiteten Leipziger Korpus (die eigentliche Korpus fehlt jedoch, da 100 MB für eine einzige Datei 2010-05-05 18:33:47 +00:00
3gramme.mod.tab.txt Benennungen vereinheitlicht. 2010-05-06 17:40:20 +00:00
3gramme.mod.txt Ergänzung: Die Dateien des von Karl Köckemann überarbeiteten Leipziger Korpus (die eigentliche Korpus fehlt jedoch, da 100 MB für eine einzige Datei 2010-05-05 18:33:47 +00:00
README.txt Eine weitere E-Mail von Karl in die README eingearbeitet. 2010-05-05 23:39:38 +00:00

README.txt

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

== Über diesen Korpus ==
im Winter 2009/10 hat Karl Köckemann die für den Leipziger Korpus zugrunde gelegte Datei manuell bereinigt und überarbeitet und dabei hauptsächlich die folgende Punkte umgesetzt:
• Umstellung auf die Neue Rechtschreibung gemäß Rechtschreibduden,
• d. h. alte Rechtschreibung kommt in der nun vorgestellten Datei kaum noch vor.
• Bereinigung sehr vieler zeitungstypischer Schreibweisen (dpa, Reuter, etc.),
• Korrektur vieler Rechtschreibfehler.

Des weiteren wurden (nach dem Entfernen der Zeilennummern) jeweils 5 Sätze zu einem Absatz zusammengefügt, wodurch die Häufigkeit für die Enter-Taste in etwa ihrer tarsächlichen Häufigkeit entsprechen sollte.

Zudem wurden auch sehr viele andere Feinheiten berücksichtigt. Obwohl die allerletzten Kleinigkeiten leider nicht mehr umgesetzt werden konnten (es ging da nur noch um den Rest der von einem Punkt gefolgten Einzelgroßbuchstaben wie z. B. in »George W. Bush«, was wahrscheinlich sowieso wenig relevant sein dürfte), kann man diese Überarbeitung dennoch als nahezu abgeschlossen ansehen.

== Einsatzmöglichkeit ==
Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu gebrauchen, als der pure  zu zeitungslastige  Leipziger Korpus und sollte etwa für computergestützte Analyen und Optimierungungen verwendet werden.

Wegen der Neuen Rechtschreibung  wird das ß sicherlich weniger, das s häufiger vorkommen als in anderen Korpussen  es könnte sein, dass wir hiermit die erste öffentlich zugängliche Zeichenhäufigkeitsliste zu einem nicht kleinen Korpus haben, der auf der Neuen Rechtschreibung basiert.

=== Dateien ===
Hier im SVN befinden sich nur die aus dem Korpus ermittelten n-Gramm-Dateien, der gesamte Textkörper (Größe: 100 MB komprimiert / 300 MB unkomprimiert) kann (derzeitig) hier heruntergeladen werden:
http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html

In den ersten drei n-Gramm-Dateien sind die einzelnen n-Gramm-Zeichen zusammengeschrieben, in den letzten drei Dateien mit »tab« im Dateinamen sind die n-Gramm-Zeichen durch Tabstops voneinander getrennt, wodurch sie direkt in Tabellenkalkulationsprogrammen eingelesen werden können. Die Bi- und Trigramme enthalten alle im Korpus vorkommenden Zeichen, also auch das Leerzeichen.

Wer Interesse daran hat, dem steht es frei, diese Dateien zu verwenden.