- ...Sedlmeier
- Ich danke den Studentinnen und Studenten an der Universität Salzburg und der University of Chicago für ihre kritischen Fragen, sowie Edgar Erdfelder, Gerd Gigerenzer, Wolfgang Hell, Anita Hewer, Detlef Köhlers, Jürgen Locher, Ralph Hertwig, Manfred Wettler und zwei anonymen Reviewern für hilfreiche Rückmeldungen. Diese Arbeit wurde unterstützt durch ein Feodor-Lynen Stipendium der Alexander-von-Humboldt Stiftung und durch ein Habilitationsstipendium der Deutschen Forschungsgemeinschaft.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...[#Sedlmeier89##1#]).
- Eine Poweranalyse
(Cohen, 1988 [16]) ist in einer
solchen Situation unabdingbar. Eine solche Analyse sollte auch
in allen anderen Fällen, in denen Signifikanztests benutzt
werden, durchgeführt werden. Mittlerweile liegt ein kostenlos
erhältliches, sehr komfortables Programm hierfür vor
(Erdfelder, Faul & Buchner, 1996 [28]).
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Handlungsentscheidung
- Den zahlreichen Diskussionen und Kontroversen über
den Einsatz des (erweiterten) Signifikanztests zum
Test von Theorien will ich keinen neuen Beitrag hinzufügen (siehe
hierzu etwa Bredenkamp, 1972 [9];
Westermann & Hager, 1982 [69]; Westermann
& Hager, 1984 [70];
und die entsprechenden Beiträge im 1991er
Jahrgang der Psychologischen Rundschau). Selbst wenn man
der Meinung ist, daß ein Signifikanztest zum Zwecke der
Theorienprüfung unbedingt notwendig ist, sind die im Folgenden
besprochenen Verfahren als Ergänzungen von großem Wert.
Ein weiteres Problem, das hier nicht diskutiert wird, ist die
Beurteilung der Repräsentativität von Stichproben.
Dieses Problem ist jedoch nicht mit speziellen Verfahren verbunden,
sondern tritt immer auf, wenn man generelle Schlußfolgerungen
aufgrund von Stichprobenergebnissen zieht.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...ist.
- Die Graphiken in
diesem Beitrag (mit Ausnahme der Stamm & Blatt Diagramme)
wurden mit SYGRAPH (Wilkinson, Hill & Vang, 1992 [71])
erstellt.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Patienten''.
- Es wird nicht der
Anspruch erhoben, daß
die verwendeten Daten repräsentativ für neuropsychologische
Patienten sind.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...(``Whiskers'').
- In der ursprünglichen Version (Tukey,
1977 [65]),
die auch heute noch am weitesten verbreitet ist (siehe
auch Abbildung 3), werden die Whiskers folgendermaßen bestimmt
(für eine theoretische Rechtfertigung siehe z.B. Emerson
& Strenio, 1983 [26]):
Zunächst werden kritische Abstände
von den Begrenzungen der Box, sogenannte ``inner fences'',
berechnet, indem man von jeder Begrenzung jeweils 1.5 Interquartilsabstände
nach ``außen'' abträgt. Die zwei Datenpunkte,
die jeweils den kritischen Abständen am nächsten sind
(auf der Seite, die der Box zugewandt ist) liefern dann die numerischen
Werte für die Whiskers. Ein Beispiel - Berechnung des oberen
Whiskers für die Gruppe A in Abbildung 3: Die Obergrenze
der Box ist 182 (75% Quantil, berechnet als [175+189]/2) und der
Interquartilsabstand beträgt 18 (75% Quantil minus 25% Quantil
- 182-164). Der kritische obere Punkt (``inner fence'')
ist somit 209 (182+1.5*18). Nun sucht man den Wert, der (auf
der der Box zugewandten Seite) am nächsten an dem kritischen
oberen Punkt (209) liegt. Dieser Wert ist in unserem Beispiel
189, und deswegen wird an dieser Stelle auch der kleine ``Whisker-Querstrich''
eingezeichnet.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...als
- Die Effektgröße d war von
Cohen ursprünglich (für Teststärkeberechnungen)
als Populationsmaß definiert worden und bis heute ist der
Gebrauch nicht ganz einheitlich. Die hier verwendete Version
von d wird manchmal auch as ``Hedges's g''
bezeichnet (z.B. Rosenthal & Rosnow, 1991, S. 446 [58])
und dient zur Schätzung des Populationseffekts. Für sehr kleine
Stichproben empfiehlt es sich allerdings, eine Korrekturformel
zu verwenden (vgl. Richardson, 1996 [56]),
da sonst der Populationseffekt
überschätzt wird. In diesem Artikel wurde trotz einer
verhältnismäßig kleinen Stichprobe die unkorrigierte
Version von d verwendet, weil sich verschiedene Zusammenhänge
damit leichter und anschaulicher illustrieren lassen.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...3).
- Die negative Varianz der
Populationskorrelationen
für Programm X (43#43 = -0.0003) ist zurückführbar
auf den Schätzfehler
bei der Bestimmung der Varianz der Stichprobenkorrelationen.
Diese geschätzte Varianz wird in der Regel etwas fehlerbehaftet
sein, solange die Anzahl der Studien nicht gegen unendlich geht
(siehe Hunter & Schmidt, 1990, S. 109-110) [42].
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...generiert.
- Zunächst wurden
zufällig je 15
Stichproben aus einer nichtzentralen t-Verteilung mit 38
df gezogen. Die Werte für die Nichtzentralitätsparameter
waren 1.5 für ``Programm X'' und 3 für ``Programm
Y''. Sodann wurden mittels der Formel 45#45
die t-Werte in Korrelationen transformiert. Alle Berechnungen
wurden mit Lisp-Stat (Tierney, 1990 [64]) durchgeführt.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...[#Salsburg85##1#]).
- Könnte der
Signifikanztest nicht auch
so erfolgreich sein, weil im Gegensatz zur Interpretation von
EDA-Resultaten oder Effektgrößen Subjektivität
keine Rolle spielt, weil er ``objektive'' Ergebnisse
liefert? Tatsächlich ist Signifikanztesten auch mit einer
Reihe subjektiver Entscheidungen verbunden (vgl. Berger &
Berry, 1988 [6]).
Zunächst muß ein geeigneter Test ausgewählt
werden - muß ich z.B. aufgrund des Skalenniveaus der abhängigen
Variablen (z.B. Werte auf einer Rating-Skala) einen parameterfreien
Test benutzen oder kann es auch ein gängiges parametrisches
Verfahren sein? Sind andere Anwendungsvoraussetzungen wie etwa
Varianzengleichheit, Normalverteilung in der Population usw. erfüllt?
Wie soll ich mein 5#5 und mein 4#4 wählen?
Und last not least - Wie beurteile ich meinen p-Wert?
Die Art und Weise, wie Signifikanztesten manchmal betrieben wird,
läßt vergessen, daß auch der Signifikanztest
kein automatisiertes Datenanalyse-Instrument ist.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Methods of Psychological Research 1996,
Vol.1, No.4
© 1997 Pabst Science Publishers
|