Daten aus bevölkerungsrepräsentativen Telefonbefragung


[Autoren: MMC/ISBA]

Aktuell gehen die Daten der letzten 6 Wellen der bevölkerungsrepräsentativen Telefonbefragung (CATI) mit ingesamt ca. 40.000 ungewichteten Fällen in den Datensatz ein.

Zusammenführung der Festnetz- und der Mobilfunkstichprobe

In der Transformation muss berücksichtigt werden, dass es sich bei der Festnetzstichprobe um eine Haushaltsstichprobe und bei der Mobilfunkstichprobe um eine Personenstichprobe handelt. Theoretisch sollte in der Transformation zudem bedacht werden, dass ein Befragter über beide Kanäle (Festnetz und Mobilfunk) erreicht werden kann. Eine gemeinsame Transformation, bei der sowohl die Anzahl der Mobil- als auch der Festnetznummern berücksichtigt wird, führt jedoch zu einem unrealistischen Anteil an Personen, die nur per Mobilfunk erreichbar sein sollen. Zudem zeigt sich, dass sich die soziodemografische Struktur der Nutzer beider Kanäle (Festnetz und Mobilfunk) je nach Erhebungskanal unterscheidet und von unterschiedlichen Erreichbarkeiten ausgegangen werden muss. Für die Transformation wurde daher ein getrenntes Vorgehen gewählt: Die Festnetzfälle werden dabei so transformiert, wie dies bereits vor der Einführung der Mobilfunkerhebung geschah. Bei den Mobilfunkfällen wird die Anzahl der persönlich genutzten Mobilfunknummern berücksichtigt. Nach diesen getrennten Transformationen werden die Gewichtungen der beiden Datenbestände gemeinsam umgesetzt.

Transformation

Die Transformation ist das Verfahren, das die aus den Disproportionen der Stichprobenanlage herrührenden unterschiedlichen Auswahlchancen ausgleicht. Insofern müsste diese Prozedur eigentlich Proportionalisierung heißen. Es hat sich jedoch der Ausdruck Transformation eingebürgert, obwohl er im mathematischen Bereich eine andere Bedeutung aufweist und insofern bereits besetzt ist. Die Transformation wird wellenweise getrennt durchgeführt.

Haushaltstransformation

Festnetzstichprobe

Die Festnetzstichprobe basiert auf einer Haushaltsstichprobe, die in eine Personenstichprobe überführt wird. Wir betrachten hier nur die relativen Auswahlchancen. Die endgültigen Gewichte werden durch einen Normierungsvorgang eingeführt, der die Summe der Transformationsgewichte gleich der Anzahl Haushalte setzt. Wegen der regionalen Disproportionalitäten ergibt sich für alle in einem Kreis erhobenen Interviews der folgende Proportionalisierungsfaktor als Startwert für die Berechnung des Transformationsgewichtes:

PropKreis.png

Der Ausgleich der durch die unterschiedliche telefonische Erreichbarkeit (1, 2, 3+ Festnetz-Rufnummern) hervorgerufenen Auswahlchance wird anschließend durchgeführt:

TrafoHH.png


Es werden nur die relativen Auswahlchancen betrachtet. Die endgültigen Gewichte werden durch einen Normierungsvorgang berechnet. Dabei wird die Summe der Gewicht auf die Fallzahl x 1.000 normiert.

Mobilfunkstichprobe

Da es sich bei den Mobilfunk-Interviews um eine Personenstichprobe handelt, wird als Haushaltsgewicht in allen Fällen eine 1 bzw. 1.000 (Normierung auf Fallzahl x 1.000) eingespeichert.

Personentransformation

Festnetzstichprobe

Die Personentransformation ordnet jeder Person in der Stichprobe einen Faktor zu, der den reziproken Wert ihrer Auswahlchance im Haushalt ausmacht. Es genügt auch hier, mit der relativen Auswahlchance zu operieren, weil die Absolutzahlen durch einen zur Haushaltstransformation analogen Normierungsvorgang eingeführt werden. Die Auswahlchance einer Person ergibt sich aus der Chance, dass der Haushalt ausgewählt wird, in der die Person lebt, und der Anzahl der in diesem Haushalt lebenden Personen im Alter von mindestens 14 Jahren.

Das Personentransformationsgewicht ermittelt sich aus dem Haushaltstrans­formationsgewicht nach folgender Formel:

TrafoPers.png

Mobilfunkstichprobe

Bei der ebenfalls wellenweise gewichteten Personentransformation der Mobilfunkstichprobe wird nur die Erreichbarkeit mit mobilen Rufnummern in drei Klassen verrechnet.

TrafoPers2.png

Am Ende der Personentransformation werden die Gewichte auf die jeweiligen Fallzahlen der einzelnen Wellen der jeweiligen Stichprobenkomponenten normiert.

Personengewichtung

Bedingt durch die Stichprobenrealisierung kommt es in der demografischen Zusammensetzung zu Ungleichgewichten innerhalb der Gesamtstichprobe gegenüber der Verteilung in der Gesamtbevölkerung. Da insbesondere die Stichprobenrealisierung der erreichten Altersklassen große Unterschiede beinhalteten, wurden erhebungstechnische Maßnahmen durch die Einbeziehung von Mobilfunk-Interviews ergriffen. Unabhängig davon wurde weiterhin ein auf die besonderen Verhältnisse der ma Internet maßgeschneidertes Personengewichtungsverfahren eingesetzt, mit dem Ziel, von den Befragten auch auf die Nicht-Erreichten und damit auf die angestrebte Grundgesamtheit insgesamt schließen zu können. Die entsprechend der oben beschriebenen Vorgehensweise ermittelten normierten Transformationsgewichte sind die Ausgangsbasis für die Personengewichtung. Dabei werden alle Studienkomponenten gemeinsam verrechnet.

Die Personengewichtung wird nicht in der Weise durchgeführt, dass man alle möglichen Kombinationen der Merkmale (über alle ihre Kategorien) bildet. Das würde zu einer riesigen Zellenzahl führen, die weit über die Stichprobengröße hinausgeht, so dass erhebliche Zusammenfassungen nötig wären, und der vermeintliche Vorteil der exzessiven Zellenbildung wieder verloren ginge. Andererseits kann man nicht nur Randverteilungen einsetzen, sondern sollte Zellen in einem vernünftigen Rahmen bilden, soweit Vorkenntnisse darüber aus dem Zusammenwirken verschiedener Normmerkmale existieren. Allerdings sind auch hier Zusammenfassungen nicht ganz zu vermeiden. Die Sollvorgaben für die Personengewichtung werden einmal pro Jahr auf Basis des Mikrozensus gebildet. Das rechnerische Verfahren ist ein Iterationsprozess, bei dem die jeweils beteiligten Systeme simultan zur Bildung von Faktorengewichten herangezogen werden.

In der ma Internet werden die sechs den Bericht bildenden Einzelwellen getrennt transformiert und gemeinsam gewichtet. Dabei wird zuerst eine wellenweise und anschließend eine gesamthafte Gewichtung der Erhebungswellen durchgeführt. In der wellenweisen Gewichtung wird der Anteil des Weitesten Nutzerkreises (3-Monats-Onliner) bestimmt. Dieser fließt als Vorgabe in die gesamthafte Gewichtung ein. Nachfolgend ist eine Übersicht der verwendeten Gewichtungsmatrizen dargestellt:

Zum Abschluss der Personengewichtung findet eine Justierung nach „Alter x Geschlecht x Nationalität des Befragten“ statt. Abschließend erfolgt noch eine Normierung der Personengewichte auf die entsprechende Fallzahl.

Gini-Koeffizient zur Beurteilung der Stichprobenqualität

Der Gini-Koeffizient ist ein statistisches Maß zur Darstellung von Ungleichverteilungen. Er wird von der sogenannten Lorenzkurve abgeleitet und nimmt Werte zwischen 0 und 1 an, wobei 0 eine perfekte Gleichverteilung (Varianz = 0) und 1 eine maximale Ungleichverteilung der Daten bedeutet. Die Lorenzkurve ist ein Mittel, um Ungleichmäßigkeit zu visualisieren. An ihr kann man ablesen, wie sehr eine Verteilung von einer perfekten Gleichverteilung abweicht. Das ergibt einerseits nur Sinn bei quantitativen Merkmalen, wie beispielsweise dem Einkommen und andererseits stellt eine „gerechte“ Gleichverteilung nicht die angestrebte Grundgesamtheit dar. Deshalb werden zur Berechnung des Gini-Koeffizients nicht die erhobenen Daten bestimmter Merkmale, sondern errechnete Gewichte einer Normgewichtung herangezogen. Als Basis dieser Normgewichtung dienen vier Merkmale:

  • Geschlecht,
  • Alter des Befragten in 7 Klassen (ab 16 Jahren),
  • Haushaltsgröße in 4 Klassen und
  • Ausbildung des Befragten in 5 Klassen.

Der Gini-Koeffizient wird berechnet als Anteil der Fläche zwischen der Lorenzkurve und der Diagonalen zur maximal möglichen Fläche unter der Diagonale:

Gini-Koeffizient

Hätte jeder Fall das Gewicht 1, wäre die Lorenzkurve identisch zur Diagonalen. Das würde bedeuten, dass die erhobenen Daten perfekt zur zugrundeliegenden Grundgesamtheit passen würden, somit würde sich ein Gini-Koeffizient von 0 ergeben. Je mehr die Gewichte die Unterschiede zur Grundgesamtheit ausgleichen müssen, desto größer wird der Gini-Koeffizient. Für die ma 2019 Internet-CATI I ergibt sich ein Gini-Koeffizient von 0,38. Die vier Zellen der Normgewichtung sind mit je weniger als einem Fall Abweichung getroffen und die Gewichtsgrenzen sind 0,051 und 12,998.

Einkommensschätzung

Das persönliche Einkommen des Befragten (PEK) bzw. des Haushalts (HHE) ist ein wichtiges Merkmal im ma-Interview. Hierfür gilt, dass kein eigenständiger Haushalt ohne eigenes Einkommen bestehen kann. Im Interview sind aber lediglich ca. 75% der Befragten bereit, diese Frage zu beantworten. Im Face-to-Face-Interview werden diese fehlenden Angaben in der Regel vom Interviewer, der vor Ort ist, geschätzt. Diese Schätzung nach Augenschein ist beim CATI-Interview jedoch nicht möglich. Daher wird für die ma Internet diese Schätzung durch ein methodisches Schätzverfahren ersetzt.

Abfragen im Interview

Persönliches Einkommen

Im Interview wird zunächst das PEK ermittelt. Zunächst gibt es die Antwort-Möglichkeit „kein eigenes Einkommen“. Für alle anderen Befragten erfolgt die Abfrage des Einkommens dann stufenweise, d.h. es wird zunächst nur danach gefragt, ob eine Person mehr oder weniger als € 2.000 verdient, dann – falls mehr – ob sie mehr oder weniger als € 3.000 verdient usw. Entsprechend ist das Vorgehen für die Einkommensgruppen unter € 2.000. Dies wird, in den Grenzen von „unter € 500“ bis „über € 7.000“ so lange betrieben, bis das Einkommen einer Person einem 500er-Intervall zugeordnet werden kann. Durch dieses Verfahren kommt es neben den vollständigen und den komplett fehlenden Angaben auch zu Teilausfällen.

Haushaltseinkommen

Danach wird analog das HHE abgefragt. Dabei stellt das genannte PEK die Untergrenze dar, d.h. bei einem PEK > € 2.000 braucht für das HHE nicht gefragt zu werden, ob es mehr oder weniger als € 2.000 beträgt. Ist der Befragte der einzige Verdiener im Haushalt, entfällt die Abfrage des HHE – es ist gleich dem PEK.

Segmentation des persönlichen Einkommens

Nun wird eine Segmentation des Merkmals PEK für alle Fälle mit vollständiger Angabe durchgeführt. Dafür stehen 20 demografische Merkmale zur Verfügung. Es ergeben sich 16 Segmente, die die Einkommensstufen maximal trennen (hpts. Tätigkeit, Bildung und Beruf). Diese Segmente definieren Zielgruppen für die Schätzung des PEK. In diesen Zielgruppen werden alle weiteren Verarbeitungsschritte vorgenommen. Sie dienen also als jeweiliger Filter für die Verarbeitung.

Schätzungen

Persönliches Einkommen

Aus den PEK-Angaben im Interview erhält man Unter- und Obergrenzen,  z.B. kann eine Person, die schon im Interview angab, persönlich mehr als € 2.000 zu verdienen, aber keine weiteren Angaben zum PEK macht, nur den  Einkommensklassen ab € 2.000 zugeordnet werden. Hat die Person auch eine Angabe zum HHE geliefert, so kann dies die erlaubten Einkommensklassen für diese Person (zusätzlich) nach oben begrenzen. Als weitere Einschränkung ist aus anderen Angaben (Haupteinkommensbezieher, Tätigkeit etc.) zu entscheiden, ob für den Befragten die Angabe "kein eigenes Einkommen" zulässig ist.

Dadurch ergibt sich pro Fall eine Liste erlaubter Werte. Für jede Gruppe mit den gleichen erlaubten Werten wird nun eine Fusion durchgeführt, Spender sind hierbei die Fälle mit entsprechenden Komplett-Angaben, Zielgruppen die oben genannten Segmente. Die Verteilung der zu setzenden Werte wird dem so konstruierten Spenderdatensatz entnommen.

Haushaltseinkommen

Analog zum PEK liegen auch hier Unter- und Obergrenzen aus dem Interview vor. Durch im Schritt vorher komplettierte PEK-Angaben können sich die Untergrenzen hier evtl. noch einmal erhöhen.

Auch hier werden fehlende Angaben durch Fusionen ergänzt, Fälle mit gleichen erlaubten Werten werden wiederum gemeinsam fusioniert. In die Zielgruppen gehen wegen der logischen Zusammenhänge die Merkmale Haupteinkommensbezieher, Anzahl Verdiener und das PEK ein. Die Verteilung der zu setzenden Werte wird wiederum dem so konstruierten Spenderdatensatz entnommen.