Fusion

[Hauptautor: Ankordata]

Bei der Datenfusion sollen Merkmale, die nur für einen Spenderdatensatz erhoben wurden, auf die Elemente eines zweiten Datensatzes, den sogenannten Empfänger, übertragen werden. Die Idee dabei ist für jeden Datensatz im Empfänger einen oder mehrere entsprechende Datensätze im Spender zu suchen und die Merkmale des Spenders zu übertragen. Die Suche nach einem passenden Spender basiert auf sogenannten gemeinsamen Merkmalen, die sowohl für den Spender als auch für den Empfänger erhoben wurden. Informationen bezüglich der Voraussetzung für eine erfolgreiche Datenfusion, finden sich in (Gabler, Datenfusion, 1997).

Mögliche Abstandsmaße zwischen Donoren und Rezipienten werden in (Asmah, 2010) besprochen.

Bei der ma Internet bilden die Befragten im jeweils aktuellen CATI-Datensatz, die in den letzten 3 Monaten mindestens einmal das Internet über PC/Laptop, Tablet oder Smartphone nutzen, die Spender. Empfänger sind die profilierten Unique User aus dem Datensatz 1 (Stichprobe). Durch die Fusion werden ausgewählte Merkmale vom Spender auf den Empfänger übertragen. Für die ma Internet werden nur wenige Daten ergänzt.

Für jeden Unique User aus der Stichprobe wird anhand der gemeinsamen Merkmale ein möglichst gut passender CATI-Befragter herausgesucht. Von diesem CATI-Befragten werden die Fusionsmerkmale auf den Unique User übertragen. Da mehrere Fusionen gemacht werden und jeweils ein neuer geeigneter Kandidat gesucht wird, kann es durchaus vorkommen, dass die Daten eines Empfängers von mehreren Spendern stammen. Ergebnis der Fusionen ist ein Datensatz, der die gemeinsamen Merkmale der Unique User aus der Stichprobe und dazu passende Fusionsmerkmale enthält.

Zu beachten ist allerdings, dass die gemeinsamen Variablen bei den Unique Usern nicht direkt erhoben wurden, sondern teilweise über Profiling ergänzt wurden. Diese Merkmale aus dem Profiling bleiben unverändert und sind gemeinsame Merkmale der Fusion. Die spezifischen Merkmale, die aus dem CATI-Interview auf die Unique User übertragen werden, betreffen im Wesentlichen die Zugangswege ins Internet, elektrische Geräte im Haushalt und private Interessen.

Die Qualität der Fusion wird mit Prüf-/Kontroll-Tabellen nachgewiesen. Hierbei werden in vorgegebenen Zwangsgruppen aus den Merkmalen Geschlecht und Alter (11 Altersklassen) Verteilungen aus der CATI-Befragung als Sollvorgabe den entsprechenden Verteilungen bei den Rezipienten gegenübergestellt.

Erstellung des finalen Datensatzes sozio- und psychdemografischen Merkmalen

Die Grundgesamtheit der ma Internet ist die deutschsprachige Bevölkerung ab 16 Jahren. Deswegen müssen die Daten zu den 3-Monats-Onlinern um die Nichtnutzer angereichert werden. Dafür werden die Befragten aus den CATI-Interviews herangezogen und vollständig übernommen.