next up previous
Next: Literatur Up: MPR 1998 Vol.3 No.1

Was sind die guten Gründe für Signifikanztests?

Peter Sedlmeier

Diskussionsbeitrag zu Sedlmeier 1996 und Iseler 1997


Download Postscript-Version of this article
Download PDF-Version of this article

Der Kommentar von Iseler (1997) auf meinen Artikel (Sedlmeier, 1996) bietet eine willkommene Möglichkeit, einige darin schon dargelegte Punkte nochmals klarzustellen. Die dort vorgestellten Verfahren hält auch Iseler für eine Bereicherung des psychologischen Methodeninventars. Er bemängelt allerdings einige Details in der Argumentation und weist - und das scheint sein Hauptkritikpunkt zu sein - darauf hin, daß es ``gute Gründe'' für die Anwendung des Signifikanztests gibt, auf die ich seiner Meinung nach nicht eingegangen bin.

Bevor ich zu den guten Gründen komme, zunächst einige Bemerkungen zu den in Sedlmeier (1996) verwendeten Beispieldaten und Demonstrationen. Wenn man ein statistisches Verfahren mit Hilfe von Beispieldaten illustrieren will, bieten sich in der Regel zwei Möglichkeiten an. Man kann entweder einen tatsächlichen Datensatz verwenden oder vereinfachte fiktive Daten. Tatsächliche Datensätze sind natürlich interessanter, oft aber auch sehr komplex und erfordern sehr viel mehr inhaltliche Erklärung, die den Blick auf das Wesentliche der Illustration verstellen kann. Deshalb habe ich mich für die zweite Möglichkeit entschieden. Iselers Interpretationen des Datensatzes, u. a. mit Hilfe eines nichtparametrischen Tests sind interessant und illustrieren, daß es in der statistischen Datenanalyse immer mehrere Wege gibt. Sie sprechen aber nicht gegen die Anwendung der vorgeschlagenen alternativen Verfahren.

Einige Äußerungen Iselers (z. B. ``Wenn Ausreißer nicht auf Meßfehlern beruhen, wird Robustheit leicht zur Insensitivität für wichtige Details'') könnten nahelegen, daß EDA-Verfahren ihre Robustheit auf Kosten einer Insensitivität für Ausreißer erhalten. Wenn dem so wäre, wäre das in der Tat bedenklich. Doch gerade die in Sedlmeier (1996, siehe Abschnitte 4.1 und 4.2) vorgestellten EDA-Verfahren sind alles andere als insensitiv für Ausreißer. Box-Plots etwa sind ideal zum Aufdecken von Ausreißern. Die Entscheidung darüber, ob man die Ausreißer als Meßfehler oder aber als inhaltlich bedeutsame Abweichungen interpretieren sollte, kann kein statistisches Verfahren ohne die Berücksichtigung des experimentellen und theoretischen Kontexts liefern.

Doch zurück zu den guten Gründen für den Signifikanztest. Was sind diese guten Gründe? Obwohl in der Überschrift (Signifikanztest: Ritual, guter Brauch und gute Gründe) und im Fazit die Gründe im Plural auftreten, wird doch nur einer explizit erwähnt. Der gute Grund für die Anwendung von Signifikanztests ist, ``...daß man vor jeder Interpretation von Daten prüfen sollte, ob das, was man interpretieren will, nicht (unter einem passenden (!), beim Signifikanztest als Nullhypothese bezeichneten Modell) mit nennenswerter Wahrscheinlichkeit als Zufallsprodukt entstanden sein kann'' und später nochmals kürzer und prägnanter: ``...ob das zu Interpretierende ein Zufallsprodukt sein kann...'' Wenn man diese ``kritische Frage'' nicht beantwortet, ``.. ist die Grenze zum wissenschaftlich verbrämten Kaffeesatz-Lesen überschritten.''

Sehen wir uns das ``Zufalls-Argument'' etwas genauer an. Die ausführliche Argumentation läuft meist ungefähr so: Auch wenn es in der Population keinen Effekt gibt, kann man aufgrund des Stichprobenfehlers in experimentellen Resultaten eine Zufallsvariation erwarten. Die zu erwartende Zufallsvariation unter der Annahme, daß die Nullhypothese wahr ist (z. B. tex2html_wrap_inline168, tex2html_wrap_inline170, etc.) kann für unterschiedliche Testverteilungen (z. B. t-, oder F-Verteilung) und Freiheitsgrade spezifiziert werden. Wenn nun die Abweichung eines empirischen Resultats von der Nullhypothese, ausgedrückt in Einheiten der Testverteilung extremer ist als ein vorgegebenes Kriterium, d. h., tex2html_wrap_inline176, dann nimmt man an, daß dieses Resultat nicht aufgrund von Zufallsvariation zustande kam. Wenn die Abweichung kleiner ist als das vorgegebene Kriterium, dann nimmt man an, daß es durch Zufallsvariation entstanden sein könnte.

Diese Argumentation ist hochgradig abhängig von der Größe von tex2html_wrap_inline178, der Größe der verwendeten Stichprobe und, am Wichtigsten, der tatsächlichen Größe des Effekts in der Population. Wenn man wenig oder nichts über die Größe des Populationseffekts weiß, oder wenn es plausibel ist, daß kein Effekt in der Population vorhanden ist, dann kann es tatsächlich sinnvoll sein, zunächst einmal anzunehmen, daß die Nullhypothese wahr ist. In solchen Fällen, wie etwa bei parapsychologischen Fragestellungen, ist das ``Zufalls-Argument'' durchaus sinnvoll. Ist das aber der Regelfall in der psychologischen Forschung? Wenn nämlich von vornherein ein substantieller Effekt in der Population angenommen werden muß, welchen Sinn macht es dann, eine Zufallsabweichung in Abhängigkeit der dann fast sicher falschen Annahme, daß die Nullhypothese zutrifft, zu betrachten? Kann man aber davon ausgehen, daß die Nullhypothese fast nie stimmt und das nicht nur in einem vernachlässigbaren Ausmaß? Man kann, argumentiert z. B. Hunter (1997). Aufgrund der Analyse umfangreicher Literaturreviews und Metaanalysen, in denen durchschnittliche Effektgrößen aus unterschiedlichen Bereichen der Psychologie berichtet werden, kommt er zu dem Schluß, daß die Nullhypothese in weniger als 1% aller Fälle wahr ist. Diese Schätzung mag übertrieben sein, da sie auf öffentlich zugänglichen Forschungsergebnissen beruht, wobei ``erfolglose'' Experimente wohl tendenziell weniger berücksichtigt werden. Man kann aber davon ausgehen, daß es wenige Experimente gibt, in denen die a priori Wahrscheinlichkeit der Nullhypothese groß ist. Dies liegt zum einen daran, daß die meisten Forscher sich Fragestellungen widmen, bei denen sie erwarten, Effekte zu finden. Zum anderen werden die allermeisten Experimente in Forschungstraditionen durchgeführt, in denen oft mehrere Hundert bis Tausend Ergebnisse vorliegen. Insofern scheint Hunters (1997) Argumentation überzeugend, was aber auch heißt, daß das ``Zufalls-Argument'' in der großen Mehrzahl aller Fälle mit Vorsicht zu genießen ist.

Man könnte natürlich argumentieren, daß es immer noch die Möglichkeit gibt, eine realistischere Nullhypothese, etwa aufgrund bisheriger Forschungsergebnisse zu formulieren (siehe Fowler, 1985). Aber das scheitert bislang daran, daß dieses Thema in den gängigen Statistikbüchern nicht behandelt wird und entsprechende Tabellen für nichtzentrale Testverteilungen, sowie entsprechende Routinen in den gängigen Statistikpaketen nicht zur Verfügung stehen.

Neben dem ``Zufalls-Argument'' werden immer wieder andere ``gute Gründe'' für die Anwendung des Signifikanztests vorgebracht, die Iseler sicher mit Absicht nicht wiederholt hat. Solche Gründe sind etwa, daß das Ergebnis eines Signifikanztests ideal für die Entscheidung über eine ordinale Fragestellung ist, daß dieses Ergebnis eine Schätzung des Populationseffekts ermöglicht, und daß es ein Indikator für die Reliabilität und Reproduzierbarkeit des gefundenen Resultats ist. Alle diese Aussagen können höchstens auf sehr indirekte Weise und mit Zusatzinformationen und -annahmen aus dem Ergebnis eines Signifikanztests erschlossen werden. Sie können aber viel leichter und direkter auf andere Weise gewonnen werden (siehe Oakes, 1986; Sedlmeier, in press).

Ein pragmatischer Grund für die Anwendung von Signifikanztests ist natürlich auch, daß Reviewer und Editoren von empirischen Zeitschriften noch immer sehr zurückhaltend sind, Manuskripte ohne Signifikanztests zu akzeptieren. Aber auch das scheint sich zu ändern (als Gegenbeispiele siehe etwa: Gigerenzer, Hell, & Blank, 1986; Gigerenzer, Hoffrage, & Kleinbölting, 1991; Gigerenzer & Hoffrage, 1995; Sedlmeier, 1998; Sedlmeier, Hertwig & Gigerenzer, 1998).

Insgesamt bleibt also nicht viel von den guten Gründen für Signifikanztests. Das heißt nun nicht, daß man den Gebrauch von Signifikanztests verbieten müßte, wie es etwa Hunter (1997) fordert - sie sind nur in der überwiegenden Mehrzahl der Fälle nicht sehr hilfreich. Die Einsicht, daß Signifikanztests einen relativ geringen Nutzen haben, scheint aber immer noch dadurch erschwert zu sein, daß p-Werte nicht selten über- oder falsch interpretiert werden (z. B. O akes, 1986; Sedlmeier & Gigerenzer, 1989). Man kann natürlich die Ergebnisse von Signifikanztests pragmatisch zur Berechnung von Effektgrößen nutzen (siehe Sedlmeier, 1996). Das ist allerdings auch nur solange naheliegend, als Statistikpakete keine direkt benutzbaren Routinen für diesen Zweck bereithalten.

Manchmal hat es den Anschein, daß der Hauptzweck von Signifikanztests ist, die Fachkollegen davon zu überzeugen, daß ein Effekt ``vorhanden'' ist, oder daß ein empirisches Ergebnis interessant, substantiell oder bedeutsam ist. Ein signifikantes Ergebnis wird also als Überzeugungs-Argument benutzt (vgl. Abelson, 1995). Sobald man akzeptiert, daß alle solchen Überzeugungs-Argumente, p-Werte inklusive, letztendlich auf einer Übereinkunft von Fachkollegen beruhen, liegt es nahe, die besten Argumente für die fachliche Auseinandersetzung für ein bestimmtes Problem zu finden. Der Signifikanztest wird in der Regel dabei keine prominente Rolle spielen.

Hinzu kommt, daß der Signifikanztest durch seine Ritualfunktion das Potential hat, die psychologische Theorienbildung zu behindern: ``When passing null hypothesis tests becomes the criterion for successful predictions, as well as for journal publications, there is no pressure on the psychology researcher to build a solid, accurate theory; all he or she is required to do, it seems, is produce 'statistically significant' results'' (Dar, 1987, p. 149). In demselben Sinne hat Gigerenzer (1998) kürzlich argumentiert, daß das übliche Testen von unspezifizierten Hypothesen gegen ``Zufall'' dazu führt, daß die Theorienbildung stagniert und daß diese Vorgehensweise stattdessen Theorien-Surrogate wie ``Einwort-Erklärungen'', ``Redeskriptionen'' und ``Vage Dichotomien'' erzeugt oder am Leben hält. Was ist die Alternative? Eine mögliche Alternative sind sicherlich quantitative Modelle, wie es sie schon seit über hundert Jahren gibt (z.B. Fechner, 1860; Ebbinghaus, 1885). Solche quantitativen und präzisen Modelle sind in manchen Bereichen der Psychologie leichter zu erstellen als in anderen, aber es dürfte sich in allen Bereichen lohnen, darauf hinzuarbeiten.




next up previous
Next: Literatur Up: MPR 1998 Vol.3 No.1

Methods of Psychological Research 1998 Vol.3 No.1
© 1998 Pabst Science Publishers