|
Next: Weitere EDA-Verfahren Up: Explorative Datenanalyse Previous: Explorative Datenanalyse
Stamm & Blatt Diagramm, Box-PlotKehren wir nun zurück zu unserem Vergleich zwischen Gruppe A und Gruppe B. Zwei grundlegende EDA-Verfahren für die Visualisierung von Verteilungen sind ``Stamm & Blatt'' Diagramm und ``Box-Plot''. Sehen wir uns zunächst das Stamm & Blatt Diagramm an. Abbildung 2 zeigt einen Sonderfall eines Stamm & Blatt Diagramms, in dem zwei solche Diagramme kombiniert sind, um einen direkten Vergleich von zwei Verteilungen zu ermöglichen. Der ``Stamm'' in der Mitte des Diagramms enthält den Hundertstelsekunden-Anteil der Reaktionszeiten - ``15'', der unterste Eintrag im Stamm bedeutet 15 Hundertstelsekunden. Die ``Blätter'' geben den Rest der Information, den Millisekunden-Anteil. Die schnellste Reaktion in Gruppe A, 151 Millisekunden, wird also repräsentiert als 15 Hundertstelsekunden im Stamm und 1 Millisekunde im Blatt. Man sieht unmittelbar einen Vorteil des Stamm & Blatt Diagramms gegenüber gängigen Histogrammen - das Stamm & Blatt Diagramm konserviert die Rohwerte. Es tut dies in einer sehr übersichtlichen Weise, mit in aufsteigender (oder absteigender) Rangreihe sortierten Zahlen. Rangmaßzahlen wie der Median oder die Quartile, ein wesentlicher Bestandteil von EDA-Prozeduren, können somit leicht gefunden werden. Der Median für Gruppe A ist beispielsweise 170.5 (berechnet als [172+169]/2) und repräsentiert die zentrale Tendenz dieser Verteilung weit besser als der Mittelwert - 183. Bei einigermaßen symmetrischen Verteilungen, wie der für Gruppe B, ist der Unterschied zwischen beiden Maßen in der Regel gering: 198 für den Median versus 195 für den Mittelwert. Ein Stamm & Blatt Diagramm kann oft der erste (und manchmal wichtigste) Schritt in der Datenanalyse sein. In unserem Beispiel wird deutlich, daß die Reaktionszeiten der beiden Gruppen sich klar unterscheiden. Diesen klaren Unterschied kann man durch Inspizieren des entsprechenden Error-Bar-Plots oder des p-Werts nicht wahrnehmen. Es wird auch deutlich, warum der Standardfehler für Gruppe A soviel größer ist als der für Gruppe B - der ``Ausreißer'' in Gruppe A (der Wert 279) beeinflußt Mittelwert und Streuung beträchtlich. Dies wiederum führt zu einem nicht-signifikanten Testergebnis.
Insbesondere bei kleineren Stichproben, in denen Ausreißer
oder nichtsymmetrische Verteilungen den Mittelwert stark beeinflussen
können, sind Rangmaßzahlen weit weniger verzerrt als
auf Mittelung beruhende Maße der zentralen Tendenz einer
Verteilung. Box-Plots illustrieren diesen Sachverhalt. Abbildung
3a zeigt die Box-Plots für Gruppe A und Gruppe B. Der Querstrich
in der Box markiert jeweils den Median der Verteilung. Die Querstriche
an den Enden der Box markieren die ``Hinges'' oder Quartile
der Verteilungen (25% und 75%). Eine Box beinhaltet also (ungefähr)
50% der Werte einer Verteilung. Die Länge dieser Box (Interquartilsabstand)
ist völlig unabhängig von extremen Werten, wie z.B. den
279 msec in Gruppe A und ist somit ein resistentes Streuungsmaß.
EDA bietet auch eine einfache Methode zur Bestimmung von verschiedenen
Klassen von Ausreißern. Ausreißer sind im Box-Plot
klar erkennbar, sie liegen außerhalb der kleinen Querstriche
(``Whiskers''). Abbildung 3b zeigt eine weitere Modifikationsmöglichkeit, (robuste) Konfidenzintervalle, die als Kerben in der Box, mit dem Median als dem Mittelpunkt der Kerbe dargestellt werden (McGill, Tukey & Larson, 1978 [48]). Die Länge einer Kerbe in Abbildung 3b repräsentiert jeweils ein 95% Konfidenzintervall. Die Kerben können, wie in diesem Beispiel, auch über die Box hinausgehen. Die Konfidenzintervalle für die beiden Gruppen überlappen sich nicht - dies ist äquivalent mit einem signifikanten Testergebnis. In der Tat ist das Ergebnis eines t-Tests für Mittelwertsunterschiede ohne den extremen Wert in Gruppe A t(16)=4.41, p=.0004. Dies illustriert, wie sehr einzelne extreme Werte, insbesondere bei kleinen Stichproben, parametrische Verfahren beeinflussen können, nicht aber die robusten Verfahren der EDA. Stamm & Blatt Diagramme und Box-Plots sind jedoch nicht speziell nur für kleine Stichproben entwickelt worden, sondern können auch bei relativ großen Stichproben helfen, interessante Informationen gut sichtbar zu machen (siehe Tukey, 1977 [65], für einige Beispiele).
Next: Weitere EDA-Verfahren Up: Explorative Datenanalyse Previous: Explorative Datenanalyse Methods of Psychological Research 1996, Vol.1, No.4 © 1997 Pabst Science Publishers |
|
|