From ada143f60295fce2e22869029177a68a17aefca3 Mon Sep 17 00:00:00 2001 From: dennis Date: Thu, 6 May 2010 17:50:21 +0000 Subject: [PATCH] =?UTF-8?q?Gemeinsame=20README=20f=C3=BCr=20die=20Korpusse?= =?UTF-8?q?=20angelegt.?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- statistik/Leipzig/README.txt | 3 ++- statistik/README.txt | 10 ++++++++++ 2 files changed, 12 insertions(+), 1 deletion(-) create mode 100644 statistik/README.txt diff --git a/statistik/Leipzig/README.txt b/statistik/Leipzig/README.txt index 173939ea..428ab908 100644 --- a/statistik/Leipzig/README.txt +++ b/statistik/Leipzig/README.txt @@ -1,4 +1,5 @@ -Diese Dateien basieren auf der von der Uni Leipzig erstellten Liste der 10000 +== häufigste*.txt == +Die Dateien basieren auf der von der Uni Leipzig erstellten Liste der 10000 häufigsten Wörter (bzw. Wortformen) der deutschen Sprache¹. Groß- und Kleinschreibung sowie Sonderzeichen (Bindestriche, Leerzeichen, Apostrophe, Buchstaben mit Akzenten, Zahlen, …) wurden ignoriert. diff --git a/statistik/README.txt b/statistik/README.txt new file mode 100644 index 00000000..dc9056ef --- /dev/null +++ b/statistik/README.txt @@ -0,0 +1,10 @@ +== Korpusse == +Die Dateien in diesem Verzeichnis wurden als statistische Basis für die +computergestützte Optimierung von Tasturlayouts erstellt, derzeitig gibt es +• den Leipziger Korpus (in /leipzig), +• und eine Überarbeitung davon (in /Leipzig-Karl) + +=== Programm zur Auswertung == +Um aus einem Korpus unter GNU/Linux N-Gramme zu generieren, siehe: +• http://permalink.gmane.org/gmane.comp.hardware.keyboards.layout.neo/4602 +• http://lists.neo-layout.org/pipermail/diskussion/2009-December/015238.html