Peter Sedlmeier
Diskussionsbeitrag zu Sedlmeier 1996 und Iseler 1997
Der Kommentar von Iseler (1997) auf meinen Artikel (Sedlmeier, 1996) bietet eine willkommene Möglichkeit, einige darin schon dargelegte Punkte nochmals klarzustellen. Die dort vorgestellten Verfahren hält auch Iseler für eine Bereicherung des psychologischen Methodeninventars. Er bemängelt allerdings einige Details in der Argumentation und weist - und das scheint sein Hauptkritikpunkt zu sein - darauf hin, daß es ``gute Gründe'' für die Anwendung des Signifikanztests gibt, auf die ich seiner Meinung nach nicht eingegangen bin.
Bevor ich zu den guten Gründen komme, zunächst einige Bemerkungen zu den in Sedlmeier (1996) verwendeten Beispieldaten und Demonstrationen. Wenn man ein statistisches Verfahren mit Hilfe von Beispieldaten illustrieren will, bieten sich in der Regel zwei Möglichkeiten an. Man kann entweder einen tatsächlichen Datensatz verwenden oder vereinfachte fiktive Daten. Tatsächliche Datensätze sind natürlich interessanter, oft aber auch sehr komplex und erfordern sehr viel mehr inhaltliche Erklärung, die den Blick auf das Wesentliche der Illustration verstellen kann. Deshalb habe ich mich für die zweite Möglichkeit entschieden. Iselers Interpretationen des Datensatzes, u. a. mit Hilfe eines nichtparametrischen Tests sind interessant und illustrieren, daß es in der statistischen Datenanalyse immer mehrere Wege gibt. Sie sprechen aber nicht gegen die Anwendung der vorgeschlagenen alternativen Verfahren.
Einige Äußerungen Iselers (z. B. ``Wenn Ausreißer nicht auf Meßfehlern beruhen, wird Robustheit leicht zur Insensitivität für wichtige Details'') könnten nahelegen, daß EDA-Verfahren ihre Robustheit auf Kosten einer Insensitivität für Ausreißer erhalten. Wenn dem so wäre, wäre das in der Tat bedenklich. Doch gerade die in Sedlmeier (1996, siehe Abschnitte 4.1 und 4.2) vorgestellten EDA-Verfahren sind alles andere als insensitiv für Ausreißer. Box-Plots etwa sind ideal zum Aufdecken von Ausreißern. Die Entscheidung darüber, ob man die Ausreißer als Meßfehler oder aber als inhaltlich bedeutsame Abweichungen interpretieren sollte, kann kein statistisches Verfahren ohne die Berücksichtigung des experimentellen und theoretischen Kontexts liefern.
Doch zurück zu den guten Gründen für den Signifikanztest. Was sind diese guten Gründe? Obwohl in der Überschrift (Signifikanztest: Ritual, guter Brauch und gute Gründe) und im Fazit die Gründe im Plural auftreten, wird doch nur einer explizit erwähnt. Der gute Grund für die Anwendung von Signifikanztests ist, ``...daß man vor jeder Interpretation von Daten prüfen sollte, ob das, was man interpretieren will, nicht (unter einem passenden (!), beim Signifikanztest als Nullhypothese bezeichneten Modell) mit nennenswerter Wahrscheinlichkeit als Zufallsprodukt entstanden sein kann'' und später nochmals kürzer und prägnanter: ``...ob das zu Interpretierende ein Zufallsprodukt sein kann...'' Wenn man diese ``kritische Frage'' nicht beantwortet, ``.. ist die Grenze zum wissenschaftlich verbrämten Kaffeesatz-Lesen überschritten.''
Sehen wir uns das ``Zufalls-Argument'' etwas genauer an. Die ausführliche
Argumentation läuft meist ungefähr so: Auch wenn es in der Population
keinen Effekt gibt, kann man aufgrund des Stichprobenfehlers in
experimentellen Resultaten eine Zufallsvariation erwarten. Die zu
erwartende Zufallsvariation unter der Annahme, daß die Nullhypothese
wahr ist (z. B.
,
, etc.) kann für unterschiedliche Testverteilungen (z. B. t-,
oder F-Verteilung) und Freiheitsgrade spezifiziert werden. Wenn nun die
Abweichung eines empirischen Resultats von der Nullhypothese, ausgedrückt
in Einheiten der Testverteilung extremer ist als ein vorgegebenes Kriterium,
d. h.,
, dann nimmt man an, daß dieses Resultat
nicht aufgrund von Zufallsvariation zustande kam. Wenn die
Abweichung kleiner ist als das vorgegebene Kriterium, dann nimmt man an,
daß es durch Zufallsvariation entstanden sein könnte.
Diese Argumentation ist hochgradig abhängig von der Größe von
,
der Größe der verwendeten Stichprobe und, am Wichtigsten, der
tatsächlichen Größe des Effekts in der Population. Wenn man wenig
oder nichts über die Größe des Populationseffekts weiß, oder
wenn es plausibel ist, daß kein Effekt in der Population vorhanden ist,
dann kann es tatsächlich sinnvoll sein, zunächst einmal anzunehmen,
daß die Nullhypothese wahr ist. In solchen Fällen, wie etwa bei
parapsychologischen Fragestellungen, ist das ``Zufalls-Argument'' durchaus
sinnvoll. Ist das aber der Regelfall in der psychologischen Forschung?
Wenn nämlich von vornherein ein substantieller Effekt in der Population
angenommen werden muß, welchen Sinn macht es dann, eine
Zufallsabweichung in Abhängigkeit der dann fast sicher falschen
Annahme, daß die Nullhypothese zutrifft, zu betrachten? Kann man aber
davon ausgehen, daß die Nullhypothese fast nie stimmt und das nicht nur
in einem vernachlässigbaren Ausmaß? Man kann, argumentiert z. B.
Hunter (1997). Aufgrund der Analyse umfangreicher Literaturreviews und
Metaanalysen, in denen durchschnittliche Effektgrößen aus
unterschiedlichen Bereichen der Psychologie berichtet werden, kommt er zu
dem Schluß, daß die Nullhypothese in weniger als 1% aller Fälle
wahr ist. Diese Schätzung mag übertrieben sein, da sie auf öffentlich
zugänglichen Forschungsergebnissen beruht, wobei ``erfolglose'' Experimente
wohl tendenziell weniger berücksichtigt werden. Man kann aber davon
ausgehen, daß es wenige Experimente gibt, in denen die a priori
Wahrscheinlichkeit der Nullhypothese groß ist. Dies liegt zum einen
daran, daß die meisten Forscher sich Fragestellungen widmen, bei
denen sie erwarten, Effekte zu finden. Zum anderen werden die allermeisten
Experimente in Forschungstraditionen durchgeführt, in denen oft mehrere
Hundert bis Tausend Ergebnisse vorliegen. Insofern scheint Hunters (1997)
Argumentation überzeugend, was aber auch heißt, daß das
``Zufalls-Argument'' in der großen Mehrzahl aller Fälle mit Vorsicht
zu genießen ist.
Man könnte natürlich argumentieren, daß es immer noch die Möglichkeit gibt, eine realistischere Nullhypothese, etwa aufgrund bisheriger Forschungsergebnisse zu formulieren (siehe Fowler, 1985). Aber das scheitert bislang daran, daß dieses Thema in den gängigen Statistikbüchern nicht behandelt wird und entsprechende Tabellen für nichtzentrale Testverteilungen, sowie entsprechende Routinen in den gängigen Statistikpaketen nicht zur Verfügung stehen.
Neben dem ``Zufalls-Argument'' werden immer wieder andere ``gute Gründe'' für die Anwendung des Signifikanztests vorgebracht, die Iseler sicher mit Absicht nicht wiederholt hat. Solche Gründe sind etwa, daß das Ergebnis eines Signifikanztests ideal für die Entscheidung über eine ordinale Fragestellung ist, daß dieses Ergebnis eine Schätzung des Populationseffekts ermöglicht, und daß es ein Indikator für die Reliabilität und Reproduzierbarkeit des gefundenen Resultats ist. Alle diese Aussagen können höchstens auf sehr indirekte Weise und mit Zusatzinformationen und -annahmen aus dem Ergebnis eines Signifikanztests erschlossen werden. Sie können aber viel leichter und direkter auf andere Weise gewonnen werden (siehe Oakes, 1986; Sedlmeier, in press).
Ein pragmatischer Grund für die Anwendung von Signifikanztests ist natürlich auch, daß Reviewer und Editoren von empirischen Zeitschriften noch immer sehr zurückhaltend sind, Manuskripte ohne Signifikanztests zu akzeptieren. Aber auch das scheint sich zu ändern (als Gegenbeispiele siehe etwa: Gigerenzer, Hell, & Blank, 1986; Gigerenzer, Hoffrage, & Kleinbölting, 1991; Gigerenzer & Hoffrage, 1995; Sedlmeier, 1998; Sedlmeier, Hertwig & Gigerenzer, 1998).
Insgesamt bleibt also nicht viel von den guten Gründen für Signifikanztests. Das heißt nun nicht, daß man den Gebrauch von Signifikanztests verbieten müßte, wie es etwa Hunter (1997) fordert - sie sind nur in der überwiegenden Mehrzahl der Fälle nicht sehr hilfreich. Die Einsicht, daß Signifikanztests einen relativ geringen Nutzen haben, scheint aber immer noch dadurch erschwert zu sein, daß p-Werte nicht selten über- oder falsch interpretiert werden (z. B. O akes, 1986; Sedlmeier & Gigerenzer, 1989). Man kann natürlich die Ergebnisse von Signifikanztests pragmatisch zur Berechnung von Effektgrößen nutzen (siehe Sedlmeier, 1996). Das ist allerdings auch nur solange naheliegend, als Statistikpakete keine direkt benutzbaren Routinen für diesen Zweck bereithalten.
Manchmal hat es den Anschein, daß der Hauptzweck von Signifikanztests ist, die Fachkollegen davon zu überzeugen, daß ein Effekt ``vorhanden'' ist, oder daß ein empirisches Ergebnis interessant, substantiell oder bedeutsam ist. Ein signifikantes Ergebnis wird also als Überzeugungs-Argument benutzt (vgl. Abelson, 1995). Sobald man akzeptiert, daß alle solchen Überzeugungs-Argumente, p-Werte inklusive, letztendlich auf einer Übereinkunft von Fachkollegen beruhen, liegt es nahe, die besten Argumente für die fachliche Auseinandersetzung für ein bestimmtes Problem zu finden. Der Signifikanztest wird in der Regel dabei keine prominente Rolle spielen.
Hinzu kommt, daß der Signifikanztest durch seine Ritualfunktion das Potential hat, die psychologische Theorienbildung zu behindern: ``When passing null hypothesis tests becomes the criterion for successful predictions, as well as for journal publications, there is no pressure on the psychology researcher to build a solid, accurate theory; all he or she is required to do, it seems, is produce 'statistically significant' results'' (Dar, 1987, p. 149). In demselben Sinne hat Gigerenzer (1998) kürzlich argumentiert, daß das übliche Testen von unspezifizierten Hypothesen gegen ``Zufall'' dazu führt, daß die Theorienbildung stagniert und daß diese Vorgehensweise stattdessen Theorien-Surrogate wie ``Einwort-Erklärungen'', ``Redeskriptionen'' und ``Vage Dichotomien'' erzeugt oder am Leben hält. Was ist die Alternative? Eine mögliche Alternative sind sicherlich quantitative Modelle, wie es sie schon seit über hundert Jahren gibt (z.B. Fechner, 1860; Ebbinghaus, 1885). Solche quantitativen und präzisen Modelle sind in manchen Bereichen der Psychologie leichter zu erstellen als in anderen, aber es dürfte sich in allen Bereichen lohnen, darauf hinzuarbeiten.