MPR-logo
Methods of Psychological Research



Up: Discussion


Titel: Signifikanztests: Ritual, guter Brauch und gute Gründe.
Author: Albrecht Iseler
Freie Universität Berlin
refers to article: Jenseits des Signifikanztest-Rituals:
Ergänzungen und Alternativen

by P. Sedlmeier
published in: MPR-online 1996 Vol.1 No.4


Ein guter Brauch wird zum fragwürdigen Ritual, wenn die guten Gründe, die dahinter stehen (oder standen?), in Vergessenheit geraten sind. Ob (und bei wem) das im Hinblick auf das Signifikanztesten der Fall ist, ist eine empirische Frage, und da ist der Abschnitt "Warum ist Signifikanztesten so beliebt?" des Artikels von Sedlmeier in mehrfacher Hinsicht informativ.

Gibt es nicht - jenseits aller berechtigten Kritik - einen weitgehend akzeptierten Minimalkonsens über gute Gründe? Er könnte jedenfalls darin bestehen, daß man vor jeder Interpretation von Daten prüfen sollte, ob das, was man interpretieren will, nicht (unter einem passenden (!), beim Signifikanztest als Nullhypothese bezeichneten Modell) mit nennenswerter Wahrscheinlichkeit als Zufallsprodukt entstanden sein kann. Das zu prüfen, ist eines von vielen Erfordernissen wissenschaftlicher Seriosität, und für mich ist das der gute Grund, um dessentwillen das Signifikanztesten in der psychologischen Wissenschaftler-Gemeinschaft "guter Brauch" geworden ist. Nicht mehr und nicht weniger.

Dazu muß allerdings die Passung zwischen angewendetem Signifikanztest und zu interpretierender Eigenschaft der Daten stimmen. Ein Beispiel: Bei der Darstellung des Box-Plot wird als Vorteil der EDA (explorative Datenanalyse) ihre Robustheit gegenüber Ausreißerwerten hingestellt. Aber es gibt doch einen Signifikanztest, der dem dargestellten, auf Ranginformation ausgerichteten EDA-Verfahren eher entspricht als der zum Vergleich herangezogene t­Test: Den U-Test von Mann und Whitney. Dementsprechend hat dieser dann auch die gleiche Ausreißer-Robustheit: In dem zugrundeliegenden Datensatz gibt es nach diesem Test auch ohne Entfernen des Ausreißerwerts einen signifikanten Unterschied zwischen den Gruppen. (Bei zweiseitigem Test mit N1 = 8, N2 = 11 und U = 15.5 ergibt sich p = 0.016).

Ist es andrerseits nicht inkonsequent, wenn trotz der Betonung der Wichtigkeit leicht übersehener Details (zu deren Entdeckung EDA-Verfahren sicher geeignet sind) Robustheit gegenüber Ausreißerwerten fraglos als Vorteil bestimmter EDA-Verfahren hingestellt wird? Wenn Ausreißer nicht auf Meßfehlern beruhen, wird Robustheit leicht zur Insensitivität für wichtige Details. Für mich ist es eine wesentliche Eigenschaft formalisierter Verfahren, daß sie die Risiken, die auch andere Methoden der Erkenntnisgewinnung haben, kalkulierbar machen und diese Risiken damit "auf dem silbernen Tablett vor sich hertragen", statt sie zu verstecken. Hier bedeutet das: Unter angemessenem Einsatz der Methode des Signifikanztests (z.B. "Fishers exaktem Wahrscheinlichkeitstest") kann man auch feststellen, daß der Datensatz zu klein ist, um zu beurteilen, ob es Zufall sein kann, daß das (anscheinend seltene) Ereignis extrem hoher Reaktionszeit in Gruppe A häufiger als in Gruppe B auftaucht. Also muß dieses Phänomen als Gegenstand weiterer Forschung einstweilen offenbleiben. Genau das ist aber der adäquate Umgang mit nicht signifikanten Ergebnissen in Stichproben, die einfach zu klein sind, um Nicht-Signifikanz als Indikator für das Fehlen einer nennenswerten Abweichung von der Nullhypothese zu interpretieren.

Allerdings kann man durchaus fragen, ob es wirklich ein Nachteil ist, daß uns die "Anfälligkeit für Ausreißerwerte" der am arithmetischen Mittel orientierten Verfahren bei Sedlmeiers Daten hindern würde, undifferenziert von signifikant höheren Reaktionszeiten in Gruppe B zu sprechen. Vielleicht ist ja ein Ausreißer noch etwas anderes als lediglich der größte (bzw. kleinste) Meßwert, als der er von Rang-orientierten Verfahren behandelt wird. ("Silbernes Tablett": Es ist berechenbar, inwieweit ein Mittelwertsunterschied von einem Ausreißerwert abhängt, und es sollte nicht nur Ritual sein, daß in einer solchen Situation der t-Test selbst dann "verboten" ist, wenn wir bereit sein sollten, dem aus "Normalwerten" und Ausreißern gebildeten Mittel irgendeine Bedeutung beizumessen; denn dafür gibt es gute, berechenbare Gründe.) Aber das Ausreißerproblem ist ja ein Gesichtspunkt, der zwischen arithmetischem Mittel und Rangverfahren und nicht zwischen Signifikanztests und EDA differenziert (s.o.: U-Test), und deshalb hat die Frage der Robustheit gegenüber Ausreißern auch wenig in einer Gegenüberstellung von EDA und Signifikanztests zu suchen.

Es ist bedauerlich, daß Sedlmeier immer nur durch einen Zusatz in Klammern die Möglichkeit offenläßt, daß die von ihm in den Vordergrund gestellten Verfahren nicht Alternative, sondern Ergänzung zum Signifikanztest sind. In der Tat ist die Kritik berechtigt, daß in der Forschungs-Praxis das Erkunden und die Beschreibung von Details eines Datensatzes, die für dessen Interpretation wichtig sein können, oft zu kurz kommen. Deshalb ist es ­ trotz aller Kritik ­ dankenswert, Verfahren bekannter zu machen, die diese Lücke schließen können. Und es mag auch ein Gewinn sein, daß diese Verfahren die interpretierende Phantasie anregen können - selbst bei kleinsten Datensätzen, wie Sedlmeier eindrucksvoll unter Beweis stellt. Aber umsomehr bedarf es andrerseits der kritischen Frage, ob das zu Interpretierende ein Zufallsprodukt sein kann (wofür dann meist größere Datensätze erforderlich sind) - sonst ist die Grenze zum wissenschaftlich verbrämten Kaffeesatz-Lesen überschritten. Ein Messer ist kaum geeignet, um Suppe zu essen, und mit einem Löffel kann man nur schwer schneiden. Wie gut, daß es beide gibt - man sollte sie nicht gegeneinander ausspielen!

An manchen Stellen kann man freilich Werkzeuge austauschen; aber ein (passender!) Hammer ist trotzdem effektiver als eine Zange, wenn es um das Einschlagen eines Nagels geht. Sicherlich sind nicht überlappende Konfidenzintervalle ein Indikator für einen Mittelwerts-Unterschied; aber bekanntlich können Mittelwertsunterschiede auf einem Signifikanzniveau signifikant sein, obwohl sich die Konfidenzintervalle überlappen. Das läßt sich (ebenso wie die weiteren Überlegungen zum Vergleich von Signifikanztests mit dem Kriterium nicht überlappender Konfidenzintervalle) am einfachsten für Mittelwertsvergleiche demonstrieren und begründen; aber für Rang-orientierte Verfahren gilt Entsprechendes. Zunächst ein Beispiel: Bei = 70, = 80, NA = NB = 61 und "Quadratsummen innerhalb der Gruppe" von QSA = QSB = 32940 ergeben sich für ein Verläßlichkeitsniveau von 95% überlappende Konfidenzintervalle mit Grenzen von 706.00 bzw. 806.00, während der Mittelwertsunterschied mit t = 2.36 auf dem 5%-Nivau (zweiseitig) signifikant ist. Nicht überlappende Konfidenzintervalle sind also nicht "äquivalent mit einem signifikaten Testergebnis", wie in der Erläuterung zu Abb. 3b behauptet wird. Daß Mittelwerts-Unterschiede vom zweiseitigen t-Test eher als "überzufällig" eingestuft werden als nach dem Kriterium nicht überlappender Konfidenzintervalle, ergibt sich aus der Tatsache, daß der Standard-Schätzfehler der Mittelwerts-Differenz kleiner ist als die Summe der Standard-Schätzfehler der einzelnen Mittelwerte: Bei Unabhängigkeit der Mittelwerte ist Schätzfehler-Varianz der Mittelwerts-Differenz gleich der Summe der Schätzfehler-Varianzen der beiden Mittelwerte; aber für positive Zahlen a und b gilt bekanntlich

,

da

.

Ginge es nur um die Frage "Konfidenzintervalle oder Signifikanztests", dann könnte man zwar das Konfidenzintervall für die Mittelwerts-Differenz betrachten (seine Grenzen betragen für obiges Beispiel 108.40, und der t-Test ist bekanntlich genau dann signifikant, wenn dieses Konfidenz-Intervall nicht den Wert 0 enthält); aber damit verläßt man bereits die Betrachtung der Konfidenzintervalle einzelner Mittelwerte, für die der von Sedlmeier favorisierte Ansatz der Konfidenzintervall-Darstellung im Box-Plot ein geeignetes Werkzeug ist. Gute Gründe, die Mittelwerts-Differenz und nicht die einzelnen Mittelwerte in den Mittelpunkt der Betrachtung zu stellen, ergeben sich vor allem aus der Bedeutung von Mittelwerten in psychologischen Hypothesen: Ausschlaggebend für deren Zutreffen sind nun einmal in vielen Fällen nicht die einzelnen Mittelwerte, sondern eine Relation mehrerer Mittelwerte. Außerdem: Sedlmeier fürhrt die Gefahr der Mißinterpretation der Wahrscheinlichkeiten , und p beim Signifikanztest im Sinne einer "Wahrscheinlichkeit von Hypothesen bei gegebenen Daten" (P(H|D)) als Argument gegen den Signifikanztest an. Aber gilt das nicht noch mehr für Konfidenzintervalle? Wie Sedlmeier zutreffend darstellt, sind auch Verläßlichkeitsniveaus von Konfidenzintervallen P(D|H)-Wahrscheinlichkeiten.

Schließlich: Ist das Anführen kritischer Literatur zur Signifikanztest-Praxis mehr als Publikations-Ritual, wenn kaum geprüft wird, ob diese Kritik wirklich die Adäquatheit der Methode des Signifikanztests als ganze infragestellt, oder ob sie nicht in der Intention vieler Kritiker eher darauf hinausläuft, daß das faktische Vorgehen (und auch das Repertoire verfügbarer Verfahren) einem unbestrittenen Ziel zufallskritischer Prüfung nur schlecht gerecht wird?

Fazit: Wenn die guten Gründe für das Signifikantesten in Vergessenheit geraten sein sollten, dann ist es an der Zeit, sie in Erinnerung zu rufen und zu prüfen, wie man ihnen noch besser gerecht werden kann, damit aus einem Ritual wieder ein guter Brauch wird.


PABST SCIENCE PUBLISHERS
Lengerich, Berlin, Düsseldorf, Leipzig, Riga, Scottsdale AZ (USA), Wien, Zagreb
Verlagslogo