Datenerhebung

Next: Untersuchungsmethoden Up: Methoden Previous: Methoden

Datenerhebung

Die Datenbasis der Untersuchung ist ein Korpus aus 200 deutschsprachigen Artikeln, ausgewählt aus den 565 zum Zeitpunkt der Datenerhebung (24.-29.07.1995) deutschsprachigen Diskussionsforen. Ziel der Datenerhebung war die Erstellung eines (in den Sozialwissenschaften üblichen) repräsentativen Samples aus der Grundgesamtheit der deutschen Diskussionsforen, das Verfahren war die reine Zufallsauswahl. Als Newsreader wurde TIN verwendet, weil mit TIN die hierarchische Auflistung von Diskussionsforen und Artikeln jeweils numeriert erfolgt, was die Arbeit mit Zufallszahlen erleichtert. Die Auswahl eines Artikels erfolgte in zwei bzw. drei Schritten:

a): Im ersten Schritt wird mit Hilfe einer Zufallszahl aus dem Bereich 1-565 ein Diskussionsforum ausgewählt. Wenn es keine Artikel enthält (kam in 66 Fällen vor), wird die Auswahl solange mit neuen Zufallszahlen des Bereichs 1- 565 wiederholt, bis ein Forum getroffen ist, das Artikel enthält. Der Fall, daß ein Diskussionsforum nur einen Artikel enthält, kam nicht vor.
b): Im zweiten Schritt wird innerhalb des ausgewählten Forums mit einer Zufallszahl im Bereich, der der Zahl der vorhandenen Artikel entspricht (mind. also 2), ein Artikel ausgewählt. Wenn der Artikel englischsprachig (kam in 23 Fällen vor) oder eine Bild- bzw. Programmdatei ist (kam in 7 Fällen vor), wird die Auswahl wiederholt, bis ein deutschsprachiger Artikel getroffen ist, der dann ins Korpus übernommen wird.
c): Im Newsreader TIN werden Reaktionen auf Artikel nicht auf der in b) beschriebenen Ebene ausgewiesen, sondern den initiativen Artikeln untergeordnet (wodurch ein thread, `Faden', entsteht). Wenn die Zufallsauswahl im zweiten Schritt einen Thread trifft, wird ein dritter Schritt durchgeführt: Der Artikel aus Ebene b) und die Reaktionen aus einer Ebene c) werden zu einer Menge gleichrangiger Elemente zusammengezählt. Aus dieser mindestens 2 Elemente umfassenden Menge wird dann per Zufallszahl ausgewählt (bei englischen Artikeln wird wie in b) beschrieben verfahren; Bild- bzw. Programmdateien kommen als Antworten nicht vor). Der initiative Artikel wird also nicht bevorzugt behandelt.

Die Repräsentativität des Samples ist aus praktischen Gründen nicht vollkommen. ``Eine Zufallsauswahl der Einheiten [also die Bedingung für absolute Repräsentativität, SR] ist dann sichergestellt, wenn jedes Element der Grundgesamtheit die gleiche Chance hat, ausgewählt zu werden.'' Das ist beim angewandten Verfahren nicht der Fall, weil Artikel in großen Diskussionsforen insgesamt eine geringere Auswahlwahrscheinlichkeit haben als Artikel in kleinen Diskussionsforen. Die reine Zufallsauswahl wäre aber nur möglich gewesen, wenn man vom hierarchischen Aufbau des Diskussionsforensystems hätte absehen und die drei oben genannten Schritte durch eine Zufallsauswahl aus der Gesamtheit der Einzelartikel hätte ersetzen können. Das ist aber technisch mit Hilfe der vorhandenen Programme nicht möglich. Ebenfalls nicht exakt möglich ist die Vorabauszählung der in b) und c) beschriebenen Ebenen, woraus man dann spezielle Faktoren für die Zufallsauswahl im erstem Schritt hätte ableiten können. In der Woche der Datenerhebung hat sich die Zahl der Artikel ständig verändert, weil die Diskussionen während der Datenerhebung natürlich weiterliefen (lediglich die Zahl der Diskussionsforen wurde auf dem Stand des 24.07.1995 eingefroren). Der einzig gangbare Weg, die Feststellung von Durchschnittswerten für die Anzahl der Artikel pro Forum, wäre einem nicht unwichtigen Prinzip der Erstellung linguistischer Korpora zuwidergelaufen: ``Die Daten sollen mit einem pragmatisch vertretbaren Aufwand meßbar sein.'' Im Rahmen einer Staatsexamensarbeit mit einer viermonatigen Bearbeitungszeit sind solche Durchschnittswerte nicht zu erreichen.

Next: Untersuchungsmethoden Up: Methoden Previous: Methoden

rabas000@goofy.zdv.uni-mainz.de