| |
| |
| |
| |
aktuelles
Celebrity Deathmatch
Oder: Kant vs. Kafka – Sieg nach Punkten
Hätten Sie gedacht, dass Fontanes Wortschatz größer war, als der von Kafka? Und Kant längere Sätze schrieb als Goethe, aber einen kleineren Wortschatz hatte? Dies und mehr herauszufinden, schickt sich dieses litsal.de-Projekt an, dessen erste Ergebnisse am 01. November 2002 hier zu finden sein werden.
Ein Preview …
Stellen Sie sich einmal vor, jemand würde eine Maschine erfinden, die es uns ermöglichen würde, Kafka, Kant und Goethe an einen Tisch zu setzen. Und stellen Sie sich vor, wir könnten dann noch Fontane mit an den Tisch holen. Und weil das so eine nette Runde wäre, würden wir noch Hegel einladen, und auch den Rauschebart Marx. Nietzsche bekäme ebenfalls seinen Platz in dieser netten Lounge.
Und dann lassen wir diese Runde darüber diskutieren, wer nun den größten Wortschatz hat, wer die längsten Sätze schreibt, die längsten Wörter komponiert und wer die kompliziertesten Sätze schreibt.
Utopisch sagen Sie? Nun, da haben Sie wohl recht. Schade eigentlich. Denn spannend wäre das schon. Die Jungs würden sich sicherlich die Köpfe einschlagen.
Tja, und weil wir vermutlich noch einige Jahrzehnte oder gar Jahrhunderte warten müssten, um den Ausgang dieses Celebrity Deathmatches zu erfahren, haben wir diese nette Runde an den »virtuellen Tisch« gebeten. Und jeder der Herren dürfte sich mit seinem Lieblings-Werk auf den Titel bewerben.
Natürlich möchte litsal.de sich nicht im geringsten anmaßen, die sprachliche Qualität der einzelnen Herren zu bewerten. Und um den Inhalt der geschriebenen Worte geht es erst recht nicht. Wer von der Form auf den Inhalt schließen mag, der soll das tun. Und zugegeben – es ist nur zu verlockend.
Aber: Es ist »nur« Statistik. Zahlen und Fakten. Mehr nicht.
Hintergrund
Zunächst einmal eine kurze Erklärung zur Entstehung diese Projektes und der Idee.
Das Projekt http://gutenberg.spiegel.de dürfte bekannt sein. Dort finden sich digital erfasst Texte von Autoren von A wie Abraham a Sancta Clara bis Z wie Zschokke. Beeindruckende 50.000 HTML-Seiten mit den Werken aller möglicher Autoren finden sich dort zum Online-Studium. Das entspricht ungefähr einer Viertelmillion gedruckter Seiten.
Die Firma TRACOM hat ein Plug-In für das Massensatz-Programm Adobe FrameMaker entwickelt. Dieses PlugIn (TRACOM ITS) ermöglicht es, auf ganze Bücher eine Text-Analyse zu fahren. Ursprünglicher Einsatz für dieses PlugIn ist es, die Komplexität von Texten zu analysieren, um Übersetzungs-Agenturen bereits vor der Übersetzung einen Eindruck von der zu erwartenden Komplexität eines ausgangssprachlichen Textes zu geben, um zeitlichen Aufwand und Kosten einer Übersetzung besser einschätzen zu können.
www.litsal.de hat dieses PlugIn zur Verfügung gestellt bekommen und zahlreiche Werke verschiedenster Autoren von HTML nach FrameMaker konvertiert und diese Analysen laufen lassen. Ohne ins Schwärmen zu geraten: Es ist beeindruckend, innerhalb weniger Sekunden den verwendeten Wortschatz etwa in Kafkas »Der Prozess« ausgespuckt zu bekommen. Von Hand wäre das völlig unmöglich. Völlig unmöglich. Bei geschickter Anlage und Strukturierung lässt sich mit FrameMaker und ITS – einen halbwegs schnellen PC vorausgesetzt – sogar binnen Sekunden das gesamte Lebenswerk eines Autors analysieren. Koppelt man die einzelnen Werke gar mit einer Jahresangabe, wäre es sogar denkbar, die Entwicklung des Wortschatzes oder etwa die Satzbau-Komplexität eines Autors über die Jahre hinweg vom ersten bis zum letzten Werk darzustellen.
Folgende Werke und Artikel fanden in dieser ersten Stufe nun Eingang in die Analyse:
Franz Kafka, »Der Prozess«
Johann Wolfgang von Goethe, »Die Leiden des Jungen Werther«
Theodor Fontane, »Effie Briest«
Immanuel Kant, »Kritik der reinen Vernunft« (Fassung von 1787)
Georg Wilhelm Friedrich Hegel, »Phänomenologie des Geistes«
Friedrich Wilhelm Nietzsche, »Also sprach Zarathustra«
Friedrich Schiller, »Der Verbrecher aus verlorener Ehre«
Karl Marx, »Zur Kritik der Hegelschen Rechtsphilosophie«
Was wird analysiert?
Im ersten Schritt wird das komplette Werk in ein Adobe FrameMaker Buch konvertiert und dort typographisch nachbearbeitet, da die mikro-orthographische und typographische Qualität der in Gutenberg-DE erfassten Texte häufig nicht sehr gut ist. Anschließend wird das PlugIn gestartet. Das PlugIn erzeugt eine einfache Text-Datei, die eine detaillierte Analyse der einzelnen Kapitel sowie eine Zusammenfassung für das ganze Buch liefert.
Das PlugIn errechnet zunächst die Gesamtwortzahl des Buches und anschließend den Wortschatz, also die Gesamtzahl der unterschiedlichen Wörter. Aus diesen beiden Werten wird ein Quotient gebildet, die so genannte Wortschatzkomplexität eines Textes.
Im zweiten Schritt zählt das PlugIn die Anzahl aller Sätze im Buch und die durchschnittliche Anzahl der Wörter pro Satz, also die durchschnittliche Satzlänge. Anschließend wird die durchschnittliche Punktuation pro Satz errechnet. Dabei werden Kommata, Semikolon, Gedankenstriche und das Ellipsenzeichen gezählt. Letzteres nur, wenn es als Satzteil-Auslassungszeichen verwendet wird und nicht als Wortteil-Auslassungszeichen. Der Punkt am Satzende wird dabei nicht mitgezählt.
[to be continued tomorrow …]