Merkmalsanreicherung von Clients

[Hauptautor: Kantar]

Im Datawarehouse liegen kumulative Internet-Nutzungsdaten aller Clients mit Kontakt zu den an der Technischen Messung teilnehmenden digitalen Werbeträgern vor. Nur für einen geringen Anteil liegen aus der Onsite- bzw. InApp-Befragung Informationen zur Soziodemografie und zu den verwendeten Internet-Nutzungsgeräten vor. Zur Bildung des Technischen Panels ist deshalb bei qualifizierten Random-Clients eine Merkmalsanreicherung notwendig.

Merkmale

Jede Woche werden 1 Mio. Random-Clients Merkmale zur Soziodemografie und zu Internet-Nutzungsgeräten zugewiesen. Dieser Turnus ist ausreichend, um saisonale Effekte adäquat abbilden zu können. Folgende Merkmale werden gebildet:

  1. Geschlecht
  2. Alter in acht Ausprägungen
  3. Haushaltsgröße in drei Ausprägungen
  4. Bundesland bzw. Inland/Ausland
  5. Bildungsabschluss
  6. Berufstätigkeit in zwei Ausprägungen
  7. Geräteausstattung
  8. Multi-User-Status

Ausgangsmaterial

Client-Stichprobe

Im Datawarehouse der INFOnline liegen technisch gemessene Nutzungsvorgänge für eine sich ständig ändernde Zahl an Clients vor. Zu jedem Zeitpunkt wird eine bestimmte Anzahl an Clients neu gebildet; eine bestimmte Anzahl an Clients wird technisch bedingt oder nutzerinduziert gelöscht.

Jeder Nutzungsvorgang wird technisch erfasst und einem Client zugeordnet. INFOnline legt hierfür Client-Profile an, die die bisherigen Nutzungsvorgänge eines Clients speichern. Das Client-Profil ist damit veränderlich und reichert sich im Lauf des Client-Lebens an.

Qualifikationskriterien

Die Merkmalsanreicherung der Clients setzt ein bestimmtes Mindestmaß an Nutzungsvielfalt, Nutzungsintensität und Nutzungsdauer voraus. Dies führt zu Qualifikationskriterien, die ein Client mindestens erfüllen muss, um merkmalsangereichert werden zu können. Clients, die diese Qualifikationskriterien nicht erfüllen, werden frühestens beim ersten Erreichen der Qualifikationskriterien profiliert. Diese Einschränkung ist eine notwendige Voraussetzung, um im Rahmen der mathematisch-statistischen Anreicherung verlässlich verarbeitet werden zu können.

Die Qualifikationskriterien wurden vor dem erstmaligen Aufsetzen des Technischen Panels innerhalb einer vordefinierten Simulationsumgebung durch Back-Testing validiert und sollen die Eignung zur Merkmalsanreicherung durch Berücksichtigung von drei Dimensionen abdecken:

  1. Hinreichende Nutzungsintensität eines Clients, gemessen an der Zahl der zu einem Zeitpunkt vorliegenden Page-Impressions (PIs),
  2. Hinreichende Angebotsvariabilität eines Clients, gemessen an der Zahl bisher genutzer Angebote,
  3. Hinreichende Nutzungsfrequenz eines Clients, gemessen an der zu einem Zeitpunkt vorliegenden Zahl an Nutzungstagen

Die Qualifikationskriterien sind gerätespezifisch und unterscheiden sich im Moment bei den browserbasierten Clients der Geräteklassen Desktop, Tablet und Smartphone und den app-basierten Clients der Geräteklassen Tablet und Smartphone.

Ein Client qualifiziert sich zur Merkmalsanreicherung, wenn er zum Zeitpunkt der Anwendung des Qualifikationskriteriums

  1. als Desktop-, Tablet- oder Smartphone-Browser-Client mindestens 10 Angebote, 50 PIs und 2 Nutzungstage oder
  2. als Smartphone-App- oder Tablet-App-Client mindestens 2 Angebote, 50 PIs und zwei Nutzungstage

aufweist.

INFOnline stellt Kantar für jede Verarbeitungswoche eine durch eine Zufallsstichprobe erzeugte Liste von 1 Mio. neuen Random-Clients aller Geräteklassen zur Verfügung, die die Qualifikationskriterien erfüllen, bisher nicht profiliert sind und für die keine Befragungsinformationen vorliegen.

OnSite- & InApp-Befragung

Im Messsystem der INFOnline findet eine OnSite- und InApp-Befragung von Clients statt. Ziel ist es, wöchentlich eine bestimmte Zahl an Clients zu befragen. Diese neu befragten OnSite-Clients der vergangenen Woche werden Kantar zur Verfügung gestellt. Bisher befragte Clients stehen Kantar gemäß den aktuell gültigen Datenschutzbestimmungen ebenfalls zur Weiterverwendung zur Verfügung.

Erzeugung eines Kennwertedatensatzes

INFOnline erzeugt für jeden technisch gemessenen Client ein Client-Profil, welches Informationen zum Nutzungsverhalten des jeweiligen Clients enthält. Enthalten sind unter anderem für jeden Client:

  1. Informationen zum Client-Typ und Geburtsdatum des Clients
  2. Zeitpunkt des bisher letztmaligen Auftretens des Clients
  3. die Zahl der genutzten Angebote
  4. die Tage mit Nutzungsvorgängen
  5. die Zahl der bisher erzeugten PIs
  6. die Intensität der Nutzung auf einem spezifischen Angebot für jeden Einzeltag
  7. die Intensität der Nutzung auf einzelnen IVW-Kategorien im IVW-Kategoriensystem 2.0
  8. Informationen zum User-Agent (Device-Type, Betriebssystem, Browser mitsamt Versionsnummern) einschließlich Proxy-Klassifikation
  9. Informationen zur Geografischen Lokalisierung auf Land-/Bundesland-Ebene

Das Client-Profil ändert sich bei jedem Nutzungsvorgang. Ein Abruf zu einem bestimmten Zeitpunkt stellt damit immer nur eine Art Schnappschuss dar.

Kantar ruft für die neu zu profilierenden Random-Clients der Client-Stichprobe die Client-Profile ab und erzeugt hieraus einen Kennwertedatensatz, der die für die Merkmalsanreicherung besonders relevanten Dimensionen der Internet-Nutzung eines Clients umfasst. Dies sind im Detail:

  1. die Anzahl der PIs, Anzahl genutzter Angebote, Anzahl der Tage mit Nutzung, Anzahl der Sessions und Visits
  2. der Anteil der PIs aus dem Inland/Ausland sowie den Bundesländern
  3. der Anteil der Nutzung auf einzelnen Angeboten und einzelnen Kategorien / Themen des IVW-Kategoriensystem 2.0
  4. der Anteil der Nutzung auf einzelnen Zeitschienen (vormittags, mittags, nachmittags, abends, nachts, wochentags, am Wochenende)
  5. der Anteil der Nutzung in einem Kantar-spezifischen Kategoriensystem
  6. die prozentuale Verteilung der PIs auf Zeitschienen
  7. der Anteil der Nutzung auf regionalen Angeboten gemäß Regio-Mapping

Der Kennwertedatensatz stellt die Grundlage für die Merkmalsanreicherung der Clients dar.

Ablauf der Merkmalsanreicherung

Die Merkmalsanreicherung erfolgt für jede Gerätewelt und jedes Merkmal individuell unter Berücksichtigung der Vorgaben aus dem CATI-Datensatz. Die Merkmalsanreicherung ermöglicht es, Informationen der Lernfälle mit Hilfe des Kennwertedatensatzes auf die Random-Clients zu übertragen.

Die Schätzung erfolgt dabei auf Basis adaptiver, statistischer Verfahren und umfasst C5-Entscheidungsbäume sowie neuronale Netze (Deep Learning). Bei der Schätzung von Inland/Ausland bzw. des Bundeslands werden zusätzlich Informationen aus der Technischen Messung berücksichtigt. Gütekriterien zur Beurteilung der Schätzqualität sind unter anderem Trefferquoten, Stabilität im Wochenverlauf sowie Ähnlichkeit und Affinität der Nutzungsmuster von Random-Clients und OnSite-Clients.