Papenberg, Martin & Musch, Jochen

Wie viele Antwortoptionen sollten Multiple-Choice-Items haben?

Zur Frage nach der optimalen Anzahl an Antwortoptionen in Multiple-Choice Items gibt es widersprüchliche Antworten. Früher wurde von manchen Forschern die Vorgabe von nicht weniger als 4 oder 5 Antwortoptionen empfohlen, um die Ratewahrscheinlichkeit möglichst niedrig zu halten. Die Annahme war, dass die Genauigkeit einer Messung geringer sein sollte, wenn die Fragen schon durch bloßes Raten mit relativ hoher Wahrscheinlichkeit gelöst werden können. Empirische Untersuchungen zeigten jedoch, dass der Einfluss von reinen Rateprozessen beim Beantworten von Multiple-Choice Fragen keine sehr große Rolle spielt (Ebel, 1968). Ebenso wurden befriedigende psychometrische Eigenschaften schon für Tests gezeigt, deren Fragen nur 3 Antwortoptionen enthielten (Rodriguez, 2005). Für den Testfragen-Konstrukteur wäre es aus praktischen Gründen wünschenswert, wenn zuverlässige Items auch schon auf der Basis von nur 3 Antwortoptionen generiert werden könnten. Wir sind deshalb in einer empirischen Untersuchung der Frage weiter auf den Grund gegangen, welches die optimale Zahl von Antwortoptionen für Multiple-Choice-Fragen ist. Geprüft werden sollte dabei nicht nur, welche Bedeutung die bloße Anzahl an Antwortalternativen für die psychometrischen Eigenschaften eines Tests hat, sondern auch, welche Bedeutung der Qualität der dabei verwendeten Distraktoren zukommt.

Eine wichtige psychometrische Eigenschaft eines Tests ist die Reliabilität. Die Reliabilität steht für die Genauigkeit eines Tests. Eine hohe Reliabilität bedeutet, dass derselbe Test für eine Person dieselben Ergebnisse liefern sollte, wenn er mehrmals durchgeführt würde. In dem Fall wären die Ergebnisse des Tests reproduzierbar und nicht bloß durch Zufall bedingt. Einige Studien legen nahe, dass auch schon Fragen mit 3 Antwortoptionen hinreichend genau in der Lage sind, die Fähigkeitsniveaus von getesteten Personen zumessen. Tests mit 3 Antwortoptionen waren meist nicht weniger reliabel als Tests mit 4- oder 5- Antwortoptionen (z.B. Edwards, Arthur, & Bruce, 2012).

Eine weitere wichtige psychometrische Eigenschaft eines Tests ist die Validität. Die Validität eines Testverfahrens gibt an, ob der Test tatsächlich das misst, was er vorgibt zu messen. In der Praxis wird die Validität eines Tests oftmals bestimmt, indem die Korrelation des Tests zu einem bereits bestehenden Testverfahren gemessen wird, das dasselbe Konstrukt messen soll. Es gibt bislang wenige Studien, die untersucht haben, wie die Anzahl der Antwortoptionen die Validität eines Multiple-Choice Tests beeinflusst, weswegen unser spezielles Augenmerk auf der Untersuchung dieser Frage lag.

Um die Frage zu beantworten, welchen Einfluss die Qualität und Quantität der Distraktoren in Multiple-Choice Fragen für die Reliabilität und Validität des Tests haben, wurde eine Onlinebefragung durchgeführt. Die Teilnehmer wurden mit Unterstützung des SoSci Panels gewonnen. Als Multiple-Choice-Material wurden 30 Allgemeinwissensfragen aus dem Bochumer Wissenstest (BOWIT) verwendet (Hossiep & Schulte, 2008). In der Grundversion wurden diese Fragen mit 4 Antwortoptionen dargeboten. Durch Entfernen von Antwortoptionen wurden daraus Testversionen mit 3 oder nur 2 Antwortoptionen erstellt. Zudem variierten wir die Qualität der entfernten Optionen, um zu untersuchen, wie sich die Qualität der Distraktoren auf die Reliabilität und Validität des Tests auswirkt. Dazu wurden zwei Vorgehensweisen verglichen:

Um die Items mit weniger Optionen zu kreieren, wurde vom ursprünglichen 4-Optionen Item zunächst der schlechteste Distraktor, und danach der zweitschlechteste Distraktor ausgeschlossen
Es wurde zunächst der beste Distraktor ausgeschlossen, danach der zweitbeste.

Auf diese Weise entstanden systematisch Fragen mit verringerter Zahl von Antwortoptionen, die zudem entweder bessere oder schlechtere Distraktoren enthielten.

Die Qualität der Distraktoren wurde in einer Voruntersuchung bestimmt. Gute Distraktoren zeichnen sich dadurch aus, dass sie vor allem von Test-Teilnehmern mit weniger Wissen ausgewählt werden, wohingegen Teilnehmer mit mehr Wissen den Distraktor vermeiden und eher die Lösung auswählen sollten. Auch sollte ein Distraktor nicht so unplausibel sein, dass er nur von einem sehr geringen Prozentsatz der Personen, die den Test bearbeiten, ausgewählt wird (Haladyna & Downing, 1993).

Das Versuchsdesign der Hauptuntersuchung realisierte 5 Bedingungen, denen die Testteilnehmer randomisiert zugewiesen wurden:

4-Optionen Items
3-Optionen Items / schlechtester Distraktor entfernt
3-Optionen Items / bester Distraktor entfernt
2-Optionen Items / schlechteste Distraktoren entfernt
2-Optionen Items / beste Distraktoren entfernt

Untersucht wurde, inwiefern sich die Items in den unterschiedlichen Bedingungen hinsichtlich ihrer Schwierigkeit, Reliabilität, Validität und Testdauer unterscheiden. Als Außenkriterien zur Bestimmung der Validität wurden 10 Fragen aus dem sogenannten „Studenten-Pisa-Test“ des SPIEGEL (Trepte & Verbeet, 2010) gestellt; darüber hinaus wurde das selbsteingeschätzte Allgemeinwissen, sowie die Gesamtdauer der schulischen und akademischen Ausbildung erfragt.

Hypothesen

Wir vermuteten, dass sich die psychometrischen Eigenschaften der Items mit geringer werdender Zahl der Antwortalternativen verschlechtern. Wir erwarteten deshalb, dass sich die Reliabilität und die Validität der Items mit nur 2 oder 3 Antwortoptionen im Vergleich zu Items mit 4 Optionen verringern.
Wir vermuten jedoch keine Verschlechterung der psychometrischen Eigenschaften und insbesondere keine Verschlechterung der Validität, wenn schlechte Distraktoren entfernt werden, weil diese mutmaßlich wenig zu einer reliablen und validen Messung beitragen. Falls sich diese Hypothese bestätigt, käme es bei der Wissensdiagnostik mit dem Multiple-Choice-Verfahren weniger auf die Quantität als auf die Qualität der Distraktoren an.
Wir vermuten, dass eine Reduktion der Zahl der Antwortoptionen bei gleich bleibender Testzeit die Vorgabe einer größeren Zahl von Items ermöglicht, so dass die Reliabilität und Validität - bei gleicher Testdauer - sogar verbessert werden kann, obwohl auf die Vorgabe zusätzlicher Antwortalternativen verzichtet wird.

Ergebnisse

Schwierigkeit

Es zeigte sich, dass die Testversion mit 4 Antwortalternativen schwieriger war als die Versionen mit 3 oder 2 Antwortoptionen. Jedoch waren die Testversionen, in denen gute Distraktoren entfernt worden waren, leichter als die Testversionen, in denen die schlechten Distraktoren entfernt worden waren. Das spricht dafür, dass die Qualität der Distraktoren einen großen Einfluss auf die Schwierigkeit hatte. Schlechte / unplausible Distraktoren wurden seltener ausgewählt.

Reliabilität

Die Testversion mit 4 Optionen wies die höchste Reliabilität auf. Die Abnahme der Reliabilität war aber sehr gering, wenn schlechte Distraktoren entfernt worden waren – hier schnitten der 2- und 3-Optionen Test fast genauso gut ab wie der 4-Optionen Test. Wurden jedoch die guten Distraktoren entfernt, zeigte sich eine stärkere Abnahme der Reliabilität, die besonders ausgeprägt war, wenn die Fragen nur 2 Antwortoptionen enthielten.

Validität

Es zeigte sich für die Validität kein Vorteil für den Test mit 4 Antwortoptionen. Die Tests mit 2 oder 3 Antwortoptionen korrelierten tendenziell nicht schlechter mit den Außenkriterien und teilweise sogar höher, wenn die schlechten Distraktoren entfernt worden waren. So zeigte sich, dass gerade der Test mit 2 Antwortoptionen dann hohe Korrelationen zu den Außenkriterien aufwies, wenn die schlechten Distraktoren entfernt worden waren.

Testzeit

Die Bearbeitungszeit des Tests verringerte sich mit kleiner werdender Zahl der Antwortoptionen. Es könnten demnach theoretisch im gleichen Zeitraum mehr Fragen mit 2 oder 3 Antwortoptionen vorgegeben werden, als Fragen mit 4 Antwortoptionen. Dies könnte die Reliabilität und Validität der Messung steigern.

Diskussion

Die Ergebnisse der Untersuchung zeigen, dass sich die psychometrischen Eigenschaften eines Tests kaum verschlechtern, wenn schlechte Distraktoren aus Multiple-Choice Fragen entfernt werden. Die Einbußen sind jedoch auffällig, wenn gute Distraktoren entfernt werden. Somit bestätigte sich die Vermutung, dass die Qualität der Distraktoren eine größere Rolle spielt als ihre Quantität. Wesentliche Vorteile der Vorgabe von weniger Optionen sind eine reduzierte Testzeit und ein geringerer Aufwand für die Testkonstruktion. Es ist demnach wichtiger, einige qualitativ hochwertige Distraktoren zu schreiben, als auf Kosten der Qualität eine möglichst große Zahl von Distraktoren zu präsentieren.

Literatur

Ebel, R. L. (1968). Blind Guessing on Objective Achievement Tests. Journal of Educational Measurement, 5, 321-325.

Edwards, B. D., Arthur, W., & Bruce, L. L. (2012). The Three-option Format for Knowledge and Ability Multiple-choice Tests: A case for why it should be more commonly used in personnel testing. International Journal of Selection and Assessment, 20, 65-81.

Haladyna, T. M., & Downing, S. M. (1993). How many options is enough for a multiple-choice item? Educational and Psychological Measurement, 53, 999–1010.

Hossiep, R. & Schulte, M. (2008). Bochumer Wissenstest (BOWIT). Manual. Göttingen: Hogrefe.

Rodriguez, M. C. (2005). Three options are optimal for multiple-choice items: A meta-analysis of 80 Years of research. Educational Measurement: Issues and Practice, 24, 3–13.

Trepte, S. & Verbeet, M. (Hrsg.). (2010). Allgemeinbildung in Deutschland. Erkenntnisse aus dem SPIEGEL-Studentenpisa-Test. Wiesbaden: VS Verlag für Sozialwissenschaften.

Steckbrief

Titel (deutsch):	Wie viele Antwortoptionen sollten Multiple-Choice-Items haben?
Titel (englisch):	How many answer-options should a multiple-choice item have?
Erhebungszeitraum:	03/2013–04/2013
Stichprobe (effektiv):	5.793
Stand der Informationen:	03.07.2013

Publikationen

Papenberg, M., & Musch, J. (2017). Of Small Beauties and Large Beasts: The Quality of Distractors on Multiple-Choice Tests Is More Important Than Their Quantity. Applied Measurement in Education, 30(4), 273-286. doi:10.1080/08957347.2017.1353987

Weitere Informationen

Arbeitsgruppe Diagnostik und Differentielle Psychologie, Universität Düsseldorf

Kontakt

Martin Papenberg

Jochen Musch