Neo ist eine ergonomische Tastaturbelegung, welche für die deutsche Sprache optimiert ist. https://neo-layout.org
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
 
 
 
 
 
dennis ddcc485386 Benennungen vereinheitlicht. 10 years ago
..
1gramme.mod.tab.txt Benennungen vereinheitlicht. 10 years ago
1gramme.mod.txt Ergänzung: Die Dateien des von Karl Köckemann überarbeiteten Leipziger Korpus (die eigentliche Korpus fehlt jedoch, da 100 MB für eine einzige Datei 10 years ago
2gramme.mod.tab.txt Benennungen vereinheitlicht. 10 years ago
2gramme.mod.txt Ergänzung: Die Dateien des von Karl Köckemann überarbeiteten Leipziger Korpus (die eigentliche Korpus fehlt jedoch, da 100 MB für eine einzige Datei 10 years ago
3gramme.mod.tab.txt Benennungen vereinheitlicht. 10 years ago
3gramme.mod.txt Ergänzung: Die Dateien des von Karl Köckemann überarbeiteten Leipziger Korpus (die eigentliche Korpus fehlt jedoch, da 100 MB für eine einzige Datei 10 years ago
README.txt Eine weitere E-Mail von Karl in die README eingearbeitet. 10 years ago

README.txt

== Über diesen Korpus ==
im Winter 2009/10 hat Karl Köckemann die für den Leipziger Korpus zugrunde gelegte Datei manuell bereinigt und überarbeitet und dabei hauptsächlich die folgende Punkte umgesetzt:
• Umstellung auf die Neue Rechtschreibung gemäß Rechtschreibduden,
• d. h. alte Rechtschreibung kommt in der nun vorgestellten Datei kaum noch vor.
• Bereinigung sehr vieler zeitungstypischer Schreibweisen (dpa, Reuter, etc.),
• Korrektur vieler Rechtschreibfehler.

Des weiteren wurden (nach dem Entfernen der Zeilennummern) jeweils 5 Sätze zu einem Absatz zusammengefügt, wodurch die Häufigkeit für die Enter-Taste in etwa ihrer tarsächlichen Häufigkeit entsprechen sollte.

Zudem wurden auch sehr viele andere Feinheiten berücksichtigt. Obwohl die allerletzten Kleinigkeiten leider nicht mehr umgesetzt werden konnten (es ging da nur noch um den Rest der von einem Punkt gefolgten Einzelgroßbuchstaben wie z. B. in »George W. Bush«, was wahrscheinlich sowieso wenig relevant sein dürfte), kann man diese Überarbeitung dennoch als nahezu abgeschlossen ansehen.

== Einsatzmöglichkeit ==
Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu gebrauchen, als der pure – zu zeitungslastige – Leipziger Korpus und sollte etwa für computergestützte Analyen und Optimierungungen verwendet werden.

Wegen der Neuen Rechtschreibung wird das ß sicherlich weniger, das s häufiger vorkommen als in anderen Korpussen – es könnte sein, dass wir hiermit die erste öffentlich zugängliche Zeichenhäufigkeitsliste zu einem nicht kleinen Korpus haben, der auf der Neuen Rechtschreibung basiert.

=== Dateien ===
Hier im SVN befinden sich nur die aus dem Korpus ermittelten n-Gramm-Dateien, der gesamte Textkörper (Größe: 100 MB komprimiert / 300 MB unkomprimiert) kann (derzeitig) hier heruntergeladen werden:
http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html

In den ersten drei n-Gramm-Dateien sind die einzelnen n-Gramm-Zeichen zusammengeschrieben, in den letzten drei Dateien mit »tab« im Dateinamen sind die n-Gramm-Zeichen durch Tabstops voneinander getrennt, wodurch sie direkt in Tabellenkalkulationsprogrammen eingelesen werden können. Die Bi- und Trigramme enthalten alle im Korpus vorkommenden Zeichen, also auch das Leerzeichen.

Wer Interesse daran hat, dem steht es frei, diese Dateien zu verwenden.