next up previous contents
Next: Weitere EDA-Verfahren Up: Explorative Datenanalyse Previous: Explorative Datenanalyse

Stamm & Blatt Diagramm, Box-Plot

Kehren wir nun zurück zu unserem Vergleich zwischen Gruppe A und Gruppe B. Zwei grundlegende EDA-Verfahren für die Visualisierung von Verteilungen sind ``Stamm & Blatt'' Diagramm und ``Box-Plot''. Sehen wir uns zunächst das Stamm & Blatt Diagramm an. Abbildung 2 zeigt einen Sonderfall eines Stamm & Blatt Diagramms, in dem zwei solche Diagramme kombiniert sind, um einen direkten Vergleich von zwei Verteilungen zu ermöglichen.

 figure140
Abbildung 2: Stamm & Blatt Darstellung der Reaktionszeiten (in msec) in Gruppe A und Gruppe B. Der ``Stamm'' enthält die Hundertstelsekunden und die ``Blätter'' enthalten den Millisekunden-Anteil für jede Reaktionszeit.

Der ``Stamm'' in der Mitte des Diagramms enthält den Hundertstelsekunden-Anteil der Reaktionszeiten - ``15'', der unterste Eintrag im Stamm bedeutet 15 Hundertstelsekunden. Die ``Blätter'' geben den Rest der Information, den Millisekunden-Anteil. Die schnellste Reaktion in Gruppe A, 151 Millisekunden, wird also repräsentiert als 15 Hundertstelsekunden im Stamm und 1 Millisekunde im Blatt. Man sieht unmittelbar einen Vorteil des Stamm & Blatt Diagramms gegenüber gängigen Histogrammen - das Stamm & Blatt Diagramm konserviert die Rohwerte. Es tut dies in einer sehr übersichtlichen Weise, mit in aufsteigender (oder absteigender) Rangreihe sortierten Zahlen. Rangmaßzahlen wie der Median oder die Quartile, ein wesentlicher Bestandteil von EDA-Prozeduren, können somit leicht gefunden werden. Der Median für Gruppe A ist beispielsweise 170.5 (berechnet als [172+169]/2) und repräsentiert die zentrale Tendenz dieser Verteilung weit besser als der Mittelwert - 183. Bei einigermaßen symmetrischen Verteilungen, wie der für Gruppe B, ist der Unterschied zwischen beiden Maßen in der Regel gering: 198 für den Median versus 195 für den Mittelwert. Ein Stamm & Blatt Diagramm kann oft der erste (und manchmal wichtigste) Schritt in der Datenanalyse sein. In unserem Beispiel wird deutlich, daß die Reaktionszeiten der beiden Gruppen sich klar unterscheiden. Diesen klaren Unterschied kann man durch Inspizieren des entsprechenden Error-Bar-Plots oder des p-Werts nicht wahrnehmen. Es wird auch deutlich, warum der Standardfehler für Gruppe A soviel größer ist als der für Gruppe B - der ``Ausreißer'' in Gruppe A (der Wert 279) beeinflußt Mittelwert und Streuung beträchtlich. Dies wiederum führt zu einem nicht-signifikanten Testergebnis.

Insbesondere bei kleineren Stichproben, in denen Ausreißer oder nichtsymmetrische Verteilungen den Mittelwert stark beeinflussen können, sind Rangmaßzahlen weit weniger verzerrt als auf Mittelung beruhende Maße der zentralen Tendenz einer Verteilung. Box-Plots illustrieren diesen Sachverhalt. Abbildung 3a zeigt die Box-Plots für Gruppe A und Gruppe B. Der Querstrich in der Box markiert jeweils den Median der Verteilung. Die Querstriche an den Enden der Box markieren die ``Hinges'' oder Quartile der Verteilungen (25% und 75%). Eine Box beinhaltet also (ungefähr) 50% der Werte einer Verteilung. Die Länge dieser Box (Interquartilsabstand) ist völlig unabhängig von extremen Werten, wie z.B. den 279 msec in Gruppe A und ist somit ein resistentes Streuungsmaß. EDA bietet auch eine einfache Methode zur Bestimmung von verschiedenen Klassen von Ausreißern. Ausreißer sind im Box-Plot klar erkennbar, sie liegen außerhalb der kleinen Querstriche (``Whiskers'').gif Die Abstände zwischen Median und oberer bzw. unterer Begrenzung der Box geben Aufschluß darüber, ob die Verteilung symmetrisch oder schief ist. In unserem Beispiel wird ersichtlich, daß die Verteilungen beider Gruppen nicht ganz symmetrisch sind - die Verteilung der Werte von Gruppe A ist leicht ``linksschief'' und die Verteilung der Werte von Gruppe B ist leicht ``rechtsschief''. Box-Plots können auf verschiedene Weise modifiziert werden (Benjamini, 1988 [5]). So kann z.B. Information über die Stichprobengröße in der Breite der Box repräsentiert werden.

 figure166
Abbildung 3: Box-Plot-Darstellung der Reaktionszeiten (in msec) in Gruppe A und Gruppe B. Abbildung 3a zeigt die Standardform für Box-Plots. Der Querstrich in der Mitte der Box repräsentiert den Median. Die Box wird begrenzt durch die 25% und 75% Quartile. Ausreißer, wie z.B. der Wert 279 in Gruppe A werden gesondert abgebildet. Abbildung 3b zeigt eine modifizierte Form, die einen ``robusten Signifikanztest'' ermöglicht. Die Kerben in den Box-Plots entsprechen 95% Konfidenzintervallen. Wenn die Kerben für beide Gruppen sich nicht überlappen, entspricht dies einem signifikanten Testergebnis (bei tex2html_wrap_inline1029 = .05).

Abbildung 3b zeigt eine weitere Modifikationsmöglichkeit, (robuste) Konfidenzintervalle, die als Kerben in der Box, mit dem Median als dem Mittelpunkt der Kerbe dargestellt werden (McGill, Tukey & Larson, 1978 [48]). Die Länge einer Kerbe in Abbildung 3b repräsentiert jeweils ein 95% Konfidenzintervall. Die Kerben können, wie in diesem Beispiel, auch über die Box hinausgehen. Die Konfidenzintervalle für die beiden Gruppen überlappen sich nicht - dies ist äquivalent mit einem signifikanten Testergebnis. In der Tat ist das Ergebnis eines t-Tests für Mittelwertsunterschiede ohne den extremen Wert in Gruppe A t(16)=4.41, p=.0004. Dies illustriert, wie sehr einzelne extreme Werte, insbesondere bei kleinen Stichproben, parametrische Verfahren beeinflussen können, nicht aber die robusten Verfahren der EDA. Stamm & Blatt Diagramme und Box-Plots sind jedoch nicht speziell nur für kleine Stichproben entwickelt worden, sondern können auch bei relativ großen Stichproben helfen, interessante Informationen gut sichtbar zu machen (siehe Tukey, 1977 [65], für einige Beispiele).


next up previous contents
Next: Weitere EDA-Verfahren Up: Explorative Datenanalyse Previous: Explorative Datenanalyse

Methods of Psychological Research 1996, Vol.1, No.4
© 1997 Pabst Science Publishers