Leiner, Dominik J.

Datenqualität und Datenbereingung in Onlinebefragungen

Befragungen im Internet sind aus der sozialwissenschaftlichen Forschung nicht mehr wegzudenken. Nahezu alle Bücher zur Befragungsforschung setzen sich inzwischen umfassend mit den Vor- und Nachteilen von Onlinebefragungen auseinander (z.B. Bethlehem & Biffignandi, 2012; Fowler, 2009). Ein zentraler Schwachpunkt ist die beschränkte Internetnutzung bestimmter gesellschaftlicher Gruppen. Onlinebefragungen werden deshalb vorrangig für Studien genutzt, die keine demografisch repräsentative Stichprobe erfordern. Ein wesentlicher Vorteil im Vergleich mit postalisch verschickten Fragebögen sind deutlich geringere Kosten: Es fällt kein Porto an und die Antworten müssen nicht zeitaufwändige von Hand abgetippt werden.

Gerade die händische Eingabe von Fragebögen bringt aber Fragebögen ans Licht, die offensichtlich nicht ernsthaft ausgefüllt wurden. So malen manche Teilnehmer in Fragebatterien Zick-Zack-Muster oder kreuzen immer dieselbe Antwort an. Die Gründe sind vielfältig: Der Teilnehmer ist nur am Gewinnspiel, nicht aber am Fragebogen interessiert oder der Fragebogen hat sich nach einigen Minuten als langweilig oder als irrelevant für den Teilnehmer erwiesen. Das Ergebnis sind bedeutungslose Daten, also Antworten, die mit der Frage nichts mehr zu tun haben. Solche Antworten können das Ergebnis der Befragung verzerren oder zu falschen Befunden und damit fehlerhaften, evtl. gar schädlichen Handlungsempfehlungen führen. Das Entfernen bedeutungsloser Daten kann daher ein wesentlicher Schritt der Qualitätssicherung sein. Einfache Antwortmuster sind durch geeignete Algorithmen noch zu identifizieren – doch nicht alle bedeutungslosen Daten sind anhand eines auffälligen Zick-Zack-Musters erkennbar.

In Onlinebefragungen ist das Risiko höher als in gedruckten Fragebögen, bedeutungslose Daten zu erhalten: Internetseiten wirken weniger verbindlich als ein Blatt Papier – und während letzteres vielleicht im Papierkorb landet, wenn sich der Fragebogen als irrelevant herausstellt, wird der Onlinefragebogen „noch schnell“ bis zum Ende durchgesehen. Alle Klicks werden dabei automatisch als Antworten an den Forscher übermittelt. Hinzu kommt, dass Onlinefragebögen häufig Gewinnspiele zur Motivation der Teilnehmer anbieten.

Etablierte Kennzahlen zur Abschätzung der Antwortqualität basieren auf (1) verdächtigen Antwortmustern, (2) dem Anteil fehlender Antworten als Hinweis auf mangelndes Interesse, (3) untypischen Antworten und (4) inkonsistenten Antworten. Eine Innovation von Onlinebefragungen ist die automatische Aufzeichnung von (5) Bearbeitungszeiten. Füllt ein Teilnehmer einen 15-Minuten-Fragebogen in 3 Minuten aus, hat er die Fragen vermutlich nicht gelesen, geschweige denn über die Antworten nachgedacht. Neben der nachträglichen Abschätzung der Datenqualität fragen einige Fragebögen auch (6) direkt danach, ob man wahrheitsgemäß geantwortet hat oder setzen (7) spezielle Fangfragen ein. Eine systematische Übersicht liefern Burns und Christiansen (2011).

Methode

Die vorliegende Studie konzentriert sich auf die nachträgliche Abschätzung der Datenqualität (Kategorien 1–5 oben). Bisherige Vergleiche der möglichen Kennzahlen (Johnson, 2005; Meade & Craig, 2012) untersuchen die Kennzahlen selbst und deren Verhältnis zueinander – nicht aber deren Potenzial, bedeutungslose Daten tatsächlich vorherzusagen. Für die vorliegende Studie wurden daher Teilnehmer des SoSci Panels (die Experimentalgruppe) explizit um sinnlose Antworten gebeten – und zwar in einem Fragebogen, den vorher schon 11.201 andere Teilnehmer des Panels regulär ausgefüllt hatten (die Vergleichsgruppe). In der Experimentalgruppe wurde zufällig eine von fünf Anweisungen zum Ausfüllen angezeigt. Die Anweisungen baten in unterschiedlichen Formulierungen um schlampiges Ausfüllen (z.B. „Bitte stellen Sie sich vor, Sie haben keinerlei Interesse an den Fragen und möchten nur am Gewinnspiel teilnehmen.“) und/oder das Fälschen von Daten (z.B. „Bitte geben Sie in diesem Fragebogen möglichst wenig über sich und Ihre Meinung preis.“). Einige Teilnehmer gaben an, dass sie sich mit dem schlampigen Ausfüllen schwer getan hätten und den Fragebogen aus Gewohnheit doch sinnvoll ausgefüllt haben. Nach dem Entfernen von laut Selbstauskunft besonders gewissenhaft und ehrlich ausgefüllten Fragebögen wurden 375 Fragebögen der Experimentalgruppe in die Auswertung aufgenommen.

Für die Vergleichsgruppe wurde konservativ geschätzt, dass 4 % der Datensätze (n = 448) bedeutungslose Daten enthalten. Die Gesamtstichprobe (N = 11.576) sollte also 448 + 375 = 823 Datensätze mit bedeutungslosen Daten enthalten. Anhand von 17 verschiedenen Kennwerten wurden dann jeweils die 823 „verdächtigsten“ Datensätze ermittelt. Anschließend wurde geprüft, wie viele Datensätze aus der Experimentalgruppe der jeweilige Kennwert dabei identifiziert hat. Ein perfekter Kennwert sollte auf 100% kommen – die Ratewahrscheinlichkeit liegt bei 3,2%. Der Übersichtlichkeit halber werden hier nur einige Ergebnisse zu den 17 untersuchten Kennwerten vorgestellt.

Effektivität der Kennwerte

Fehlen in einem Fragebogen viele Antworten, ist dieser für die Datenanalyse i.d.R. ungeeignet, weil viele statistische Verfahren keine oder nur wenige fehlende Daten erlauben. Darüber hinaus ist der prozentuale Anteil fehlender Daten (2) aber kaum dazu geeignet, bedeutungslose Daten zu identifizieren. Sowohl ein gewichteter wie ein ungewichteter Kennwert können gerade einmal 9 % der Experimentalgruppe identifizieren.

Untypische bzw. extreme Antworten (3) verraten bis zu 18 % der bedeutungslosen Datensätze. Verdächtige Antwortmuster (1) verraten zwischen 20 % und 26 %. Die Standardabweichung innerhalb einer Fragebatterie schneidet überraschend etwas besser ab als spezielle Algorithmen zur Erkennung verdächtiger Muster – offenbar wählen unmotivierte Teilnehmer lieber immer dieselbe Antwort als dass sie Zick-Zack-Muster zeichnen. Widersprüchliche Antworten auf ähnliche Fragen (4), auch als Korrelationsstruktur bezeichnet, können bis zu 29 % der bedeutungslosen Datensätze identifizieren. Allerdings nur dann, wenn sog. multivariate Verfahren zum Einsatz kommen; einfachere, obgleich etablierte Kennwerte für die Antwortkonsistenz kommen lediglich auf 11 %.

Die Bearbeitungszeit (5) ist mit einer Identifikationsquote von 38% der zuverlässigste Kennwert für bedeutungslose Daten. Dahinter steht vermutlich ein Zusammenhang zwischen dem Aufwand eines Teilnehmers und der Qualität seiner Antworten.

Kennwerte für Schlamperei und Fälschung

Ein Vergleich der unterschiedlichen Teilgruppen in der Experimentalgruppe zeigt deutliche Unterschiede zwischen schlampigem Ausfüllen und bewussten Falschangaben. Während schlampige Daten am besten anhand der Bearbeitungszeit identifiziert werden (je nach Teilgruppe zwischen 23 % und 52 %) sind gefälschte Daten am besten anhand untypischer Korrelationsstrukturen (stark widersprüchliche oder zu perfekt stimmige Antworten, 27 % bis 52 %) zu erkennen.

Generell am schwersten zu identifizieren sind gefälschte Antworten, bei denen die Teilnehmer auf ein plausibles Erscheinungsbild geachtet haben.

Diskussion

Eine maximale Identifikationsquote von 52 % ist vom Optimum sehr weit entfernt. Allerdings wurden alle Schätzungen konservativ vorgenommen und nur solche Datensätze aus der Experimentalgruppe entfernt, die besonders sorgsam ausgefüllt worden waren. Die tatsächlich erreichbare Identifikationsquote dürfte daher höher liegen.

Nichts desto trotz sollte eine Bereinigung verdächtiger Fälle davon abhängig gemacht werden, welchen Anteil bedeutungsloser Daten man erwartet – je höher dieser Anteil, desto besser die Quote. Ist der Anteil gering, kann es sinnvoller sein, nur statistische Ausreißer zu entfernen, welche das Untersuchungsergebnis überproportional verzerren würden.

Referenzen

Bethlehem, J., & Biffignandi, S. (2012). Handbook of web surveys. Wiley Handbook in Survey. Hoboken: Wiley.

Burns, G. N., & Christiansen, N. D. (2011). Methods of Measuring Faking Behavior. Human Performance, 24(4), 358–372. doi:10.1080/08959285.2011.597473

Fowler, F. J. (2009). Survey research methods (4. Auflage). Applied social research methods series: Vol. 1. Los Angeles: Sage.

Johnson, J. A. (2005). Ascertaining the validity of individual protocols from Web-based personality inventories. Journal of Research in Personality, 39(1), 103–129. doi:10.1016/j.jrp.2004.09.009

Meade, A. W., & Craig, S. B. (2012). Identifying careless responses in survey data. Psychological Methods, 17(3), 437–455. doi:10.1037/a0028085

Steckbrief

Titel (deutsch):	Datenqualität und Datenbereingung in Onlinebefragungen
Titel (englisch):	Removal of Meaningless Data in Web Surveys
Erhebungszeitraum:	11/2012
Stichprobe (effektiv):	375
Stand der Informationen:	15.03.2013

Weitere Informationen

Druckansicht">https://www.soscisurvey.de/panel/studies/Leiner.2013-03.pdf">Druckansicht der Zusammenfassung (PDF)

Homepage Dominik Leiner

Kontakt

Dominik Leiner