Die Datenbasis der Untersuchung ist ein Korpus aus 200 deutschsprachigen Artikeln, ausgewählt aus den 565 zum Zeitpunkt der Datenerhebung (24.-29.07.1995) deutschsprachigen Diskussionsforen. Ziel der Datenerhebung war die Erstellung eines (in den Sozialwissenschaften üblichen) repräsentativen Samples aus der Grundgesamtheit der deutschen Diskussionsforen, das Verfahren war die reine Zufallsauswahl. Als Newsreader wurde TIN verwendet, weil mit TIN die hierarchische Auflistung von Diskussionsforen und Artikeln jeweils numeriert erfolgt, was die Arbeit mit Zufallszahlen erleichtert. Die Auswahl eines Artikels erfolgte in zwei bzw. drei Schritten:
Die Repräsentativität des Samples ist aus praktischen Gründen nicht vollkommen. ``Eine Zufallsauswahl der Einheiten [also die Bedingung für absolute Repräsentativität, SR] ist dann sichergestellt, wenn jedes Element der Grundgesamtheit die gleiche Chance hat, ausgewählt zu werden.'' Das ist beim angewandten Verfahren nicht der Fall, weil Artikel in großen Diskussionsforen insgesamt eine geringere Auswahlwahrscheinlichkeit haben als Artikel in kleinen Diskussionsforen. Die reine Zufallsauswahl wäre aber nur möglich gewesen, wenn man vom hierarchischen Aufbau des Diskussionsforensystems hätte absehen und die drei oben genannten Schritte durch eine Zufallsauswahl aus der Gesamtheit der Einzelartikel hätte ersetzen können. Das ist aber technisch mit Hilfe der vorhandenen Programme nicht möglich. Ebenfalls nicht exakt möglich ist die Vorabauszählung der in b) und c) beschriebenen Ebenen, woraus man dann spezielle Faktoren für die Zufallsauswahl im erstem Schritt hätte ableiten können. In der Woche der Datenerhebung hat sich die Zahl der Artikel ständig verändert, weil die Diskussionen während der Datenerhebung natürlich weiterliefen (lediglich die Zahl der Diskussionsforen wurde auf dem Stand des 24.07.1995 eingefroren). Der einzig gangbare Weg, die Feststellung von Durchschnittswerten für die Anzahl der Artikel pro Forum, wäre einem nicht unwichtigen Prinzip der Erstellung linguistischer Korpora zuwidergelaufen: ``Die Daten sollen mit einem pragmatisch vertretbaren Aufwand meßbar sein.'' Im Rahmen einer Staatsexamensarbeit mit einer viermonatigen Bearbeitungszeit sind solche Durchschnittswerte nicht zu erreichen.