|
Next: Effektgrößen Up: Explorative Datenanalyse Previous: Stamm & Blatt Diagramm
Weitere EDA-VerfahrenStamm & Blatt Diagramm und Box-Plots wurden ausführlicher dargestellt, da sie zum einen sehr einfach und zum anderen sehr vielseitig verwendbar sind. Die EDA beinhaltet jedoch eine große und ständig wachsende Anzahl von weiteren Verfahren (für detaillierte Beschreibungen siehe neben Tukey, 1977 [65]: DuToit, Steyn & Stumpf, 1986 [25]; Hoaglin, Mosteller & Tukey, 1983 [40]; 1985 [41]; Jambu, 1991 [44]; Polasek, 1988 [55]; Velleman & Hoaglin, 1981 [67]). EDA-Verfahren können beliebig erweitert oder ergänzt werden, ja Anwender werden explizit ermutigt, existierende Verfahren weiterzuentwickeln. Bei der Anwendung von EDA-Verfahren geht in der Regel keine Information verloren - sie wird nur in mehrere Komponenten aufgeteilt wie z.B. in fit und residuals bei der Analyse des Zusammenhangs zweier Variablen oder in smooth und rough bei der Analyse von Zeitreihen. Diese Aufteilung in jeweils (vorläufige) Modelldaten (fit, smooth) und die Abweichung der empirischen Daten hiervon (residuals, rough) kann Gesetzmäßigkeiten und Zusammenhänge, aber auch charakteristische Abweichungen deutlich sichtbar machen. Im Gegensatz zur herkömmlichen Datenanalyse wird oft ein besonderes Augenmerk auf die individuellen Abweichungen einzelner Datenwerte (z.B. vom Gesamtmedian) gelegt. Ein weiterer Schwerpunkt der EDA sind multivariate graphische Darstellungen. Zwei Beispiele sollen veranschaulichen, was gemeint ist. Erweitern wir zunächst unsere Beispieldaten für die 8 Patienten der Gruppe A um die Werte aus 4 weiteren Variablen, ``IQ'', ``Genauigkeit'', ``Angst'' und ``Problemlösen'' (siehe Tabelle 1). Tabelle 1: Ergebnisse für ``Gruppe A'' in einer hypothetischen Studie. Gezeigt sind Werte von 8 ``Patienten'' für fünf Variablen.
Wenn man Zusammenhänge zwischen mehr als zwei Variablen studieren will, sind einzelne isolierte Streuungsdiagramme oft nicht sehr hilfreich. Eine einfache Kombination individueller Streuungsdiagramme, die ``Streuungsdiagramm-Matrix'' (scatterplot matrix) vermittelt in solchen Fällen weit mehr Information, da auf einen Blick der Zusammenhang zwischen vielen Variablen sichtbar ist (siehe Cleveland & McGill, 1984 [14], für eine umfassende Diskussion von Streuungsdiagrammen). Abbildung 4 zeigt die Zusammenhänge zwischen den Variablen ``Reaktionszeit'' (höhere Werte - längere Reaktionszeit), ``IQ'' (höhere Werte - höherer IQ), ``Genauigkeit'' (höhere Werte - höhere Genauigkeit) und ``Angst'' (höhere Werte - größere Angst) für Gruppe A (siehe Tabelle 1).
Sehen wir uns die oberste Reihe der Streuungsdiagramm-Matrix in Abbildung 4 einmal genauer an. Diese Reihe zeigt die Korrelationen zwischen ``RT'' (Reaktionszeit) und den anderen drei Variablen. Zunächst, in dem Quadrat rechts von ``RT'', wird deutlich, daß ein verhältnismäßig starker (negativer) linearer Zusammenhang zwischen ``RT'' (Ordinate) und ``IQ'' (Abszisse) besteht. Es wird auch ersichtlich, daß ein Patient (der einzelne Kreis rechts oben in dem Quadrat) eine außergewöhnlich lange Reaktionszeit hatte. Gleichzeitig ist der ``IQ'' Wert dieses Patienten vergleichsweise hoch. Das Ausmaß der Korrelation zwischen ``RT'' und ``IQ'' ist deswegen ziemlich niedrig (r=.11), steigt aber drastisch an (zu r=-.93) wenn der Ausreißer von der Analyse ausgenommen wird. Ein ähnliches Bild bietet das dritte Quadrat in der obersten Reihe, das Streuungsdiagramm für ``RT'' (Ordinate) versus ``Genauigkeit'' (Abszisse) - abgesehen von dem extremen Wert steigt die Genauigkeit mit steigender Reaktionszeit. Das letzte Quadrat in der ersten Zeile zeigt keinen Zusammenhang zwischen ``RT'' und ``Angst''. Der entsprechende Korrelationskoeffizient ist jedoch der höchste in der Korrelationsmatrix (r=.93). Entfernt man aber den extremen Wert, so sinkt die Korrelation auf r=-.04. Insgesamt ist ersichtlich, daß, wenn man den Ausreißer entfernt, starke lineare Zusammenhänge zwischen ``RT'', ``IQ'' und ``Genauigkeit'' bestehen, daß aber der Zusammenhang dieser Variablen mit ``Angst'' verschwindend gering ist. Würde man nur Korrelationskoeffizienten berechnen, käme man auf diametral entgegengesetzte Ergebnisse. Ist man nicht so sehr an Zusammenhängen zwischen mehreren Variablen über Personen oder Objekte hinweg interessiert, sondern daran, ob und wie sich Personen oder Objekte anhand von mehreren Variablen in Gruppen oder Cluster unterteilen lassen, so hält die EDA auch dafür sehr anschauliche graphische Methoden bereit. Ein Beispiel sind die von Chernoff (1973) [13] eingeführten abstrahierten Gesichter. Jeder Bestandteil eines Gesichts repräsentiert eine Variable, und ein Gesicht repräsentiert die Ausprägungen dieser Variablen für eine Person oder ein Objekt. Würde man nun (aufgrund der Daten in Tabelle 1) nach Subgruppen in Gruppe A suchen, so würde man ähnliche Gesichter zusammengruppieren (siehe Abbildung 5).
Das Ergebnis im Problemlösetest (Tabelle 1, letzte Spalte) wird in Abbildung 5 durch das ``Ausmaß des Lächelns'' repräsentiert. Patient 8 hat die größte Anzahl von richtigen Lösungen und Patient 1 die geringste. Die Variable ``RT'' ist durch die Neigung der Augenbrauen und der Augen repräsentiert - Patient 1 hatte die schnellste Reaktionszeit und Patient 8 die langsamste. Das Ergebnis im ``Genauigkeitstest'' ist durch die Breite der Nasen wiedergegeben - Patient 7 (mit der schmalsten Nase) ist der genaueste. Die Länge der Gesichter zeigt den IQ der Patienten - Patient 1 hat den höchsten Wert und Patient 7 den niedrigsten. Verbleibt noch das Ergebnis des ``Angsttests'', dargestellt durch die ``Haarlänge'' - hier hat Patient 8 den höchsten Wert. Für einen genaueren Vergleich, insbesondere wenn die Anzahl der Gesichter größer ist, empfiehlt es sich, diese auszuschneiden und in Gruppen zu sortieren. Aber auch die Anordnung der Gesichter in Abbildung 5 läßt Gruppierungen erkennen. Zunächst einmal wird deutlich, daß Patient 8 sich stark von allen anderen unterscheidet. Ein zweiter Blick legt nahe, daß seine langsame Reaktionszeit (die Neigung der Augenbrauen) mit seiner erhöhten Angst zu tun haben könnte. Desweiteren könnten die ersten drei Patienten eine Untergruppe bilden. Alle drei haben einen verhältnismäßig hohen IQ, eine schnelle Reaktion und einen eher mäßigen Wert im Genauigkeitstest - im Kontrast zu den Patienten 5, 6 und 7. Die Anzahl der gelösten Probleme legt keine eindeutige Gruppenbildung nahe. Chernoff-Gesichter bieten eine sehr anschauliche Methode für die Darstellung multivariater Zusammenhänge; ihre Nützlichkeit ist allerdings, mehr noch als bei vergleichbaren EDA-Verfahren, von der Variablenzuordnung abhängig. Trotz ihrer Vielseitigkeit haben auch EDA-Techniken ihre Grenzen. Insbesondere wenn man die in einer Studie gefundenen Ergebnisse hinsichtlich ihrer praktischen Bedeutsamkeit beurteilen will, legt dies oft einen Vergleich mit Ergebnissen aus anderen Studien nahe. Effektgrößen sind hierzu das geeignete Instrumentarium.
Next: Effektgrößen Up: Explorative Datenanalyse Previous: Stamm & Blatt Diagramm Methods of Psychological Research 1996, Vol.1, No.4 © 1997 Pabst Science Publishers |
|
|