Die Datenbasis der Untersuchung ist ein Korpus aus 200
deutschsprachigen Artikeln, ausgewählt aus den 565 zum
Zeitpunkt der Datenerhebung (24.-29.07.1995)
deutschsprachigen Diskussionsforen. Ziel der
Datenerhebung war die Erstellung eines (in den
Sozialwissenschaften üblichen) repräsentativen Samples
aus der Grundgesamtheit der deutschen Diskussionsforen,
das Verfahren war die reine Zufallsauswahl.
Als Newsreader wurde TIN
verwendet, weil mit TIN die
hierarchische Auflistung von Diskussionsforen und
Artikeln jeweils numeriert erfolgt, was die Arbeit mit
Zufallszahlen erleichtert. Die Auswahl eines Artikels
erfolgte in zwei bzw. drei Schritten:
Die Repräsentativität des Samples ist aus praktischen
Gründen nicht vollkommen. ``Eine Zufallsauswahl der
Einheiten [also die Bedingung für absolute
Repräsentativität, SR] ist dann sichergestellt, wenn
jedes Element der Grundgesamtheit die gleiche Chance hat,
ausgewählt zu werden.''
Das ist beim angewandten
Verfahren nicht der Fall, weil Artikel in großen
Diskussionsforen insgesamt eine geringere
Auswahlwahrscheinlichkeit haben als Artikel in kleinen
Diskussionsforen. Die reine Zufallsauswahl wäre aber nur
möglich gewesen, wenn man vom hierarchischen Aufbau des
Diskussionsforensystems hätte absehen und die drei oben
genannten Schritte durch eine Zufallsauswahl aus der
Gesamtheit der Einzelartikel hätte ersetzen können. Das
ist aber technisch mit Hilfe der vorhandenen Programme
nicht möglich. Ebenfalls nicht exakt möglich ist die
Vorabauszählung der in b) und c) beschriebenen Ebenen,
woraus man dann spezielle Faktoren für die Zufallsauswahl
im erstem Schritt hätte ableiten können. In der Woche der
Datenerhebung hat sich die Zahl der Artikel ständig
verändert, weil die Diskussionen während der
Datenerhebung natürlich weiterliefen (lediglich die Zahl
der Diskussionsforen wurde auf dem Stand des 24.07.1995
eingefroren)
.
Der einzig gangbare Weg, die Feststellung
von Durchschnittswerten für die Anzahl der Artikel pro
Forum, wäre einem nicht unwichtigen Prinzip der
Erstellung linguistischer Korpora zuwidergelaufen: ``Die
Daten sollen mit einem pragmatisch vertretbaren Aufwand
meßbar sein
.''
Im Rahmen einer Staatsexamensarbeit mit
einer viermonatigen Bearbeitungszeit sind solche
Durchschnittswerte nicht zu erreichen.