next up previous
Next: References Up: MPR 1997 Vol.2 No.2

Zur Analyse individueller Veränderungsunterschiede mit Item-Response-Modellen - Eine Antwort auf Stelzl (1997)

Judith Glück & Christiane Spiel


Download Postscript-Version of this article
Download PDF-Version of this article

Stelzl (1997) stellt einige Kritikpunkte an der bei Glück und Spiel (1997) dargestellten Anwendung von Item-Response-Modellen zur Auswertung (quasi)experimenteller Designs dar. Insbesondere merkt Stelzl kritisch an, daß die hypothesenprüfenden Modelle LLTM (Linear Logistisches Testmodell) und (Hybrid-)LLRA (Linear Logistisches Modell mit abgeschwächten Voraussetzungen) keine individuellen Unterschiede in der Veränderung zulassen: Diese Modelle gehen davon aus, daß sich innerhalb einer Gruppe alle Personen gleich stark verändern. Sofern tatsächlich interindividuelle Unterschiede im Ausmaß der Veränderung auftreten und in der Analyse ignoriert werden, kommt es zu einer Erhöhung des Alpha-Risikos. Stelzl schlägt zwei Möglichkeiten vor, das Vorhandensein solcher interindividueller Unterschiede innerhalb der Treatmentgruppen zu prüfen. Auf diese beiden Ansätze wird weiter unten näher eingegangen. Bezüglich der Anwendung von Mixed Rasch Models kritisiert Stelzl, daß im Rahmen dieses Ansatzes keine Modellierung von Treatmenteffekten möglich ist, und daß im Artikel nicht angesprochen wird, wie sich quantitative Veränderungen innerhalb einer Klasse analysieren lassen.

Wir stimmen den Anmerkungen von Stelzl (1997) grundsätzlich zu. Die Anwendung von Mixed Rasch Models wurde in Glück und Spiel (1997) gerade eben aufgrund der Problematik der unzureichenden Berücksichtigung individueller Unterschiede bei den hypothesenprüfenden Modellen vorgeschlagen: Mit Mixed Rasch-Modellen ist es immerhin möglich, - bei ausreichender Stichprobengröße - vor Anwendung der hypothesentestenden Verfahren festzustellen, ob es latente Klassen mit unterschiedlichen Antwortmustern gibt. Ist das der Fall, dann sind rein quantitative Veränderungen von Veränderungen in Form eines Klassenwechsels abzugrenzen, und die Anwendung der hypothesenprüfenden Verfahren auf die Gesamtstichprobe macht keinen Sinn. Diese in Glück und Spiel (1997) beschriebene Methode garantiert aber nicht, daß bei Passen eines Einklassenmodells keine interindividuellen Unterschiede innerhalb der Treatmentgruppen auftreten.

Im vorliegenden Beitrag möchten wir die von Stelzl (1997) empfohlenen Methoden, das Verwenden von Außenkriterien und die zweifache Schätzung der Personenparameter, kurz diskutieren, sowie zwei weitere Möglichkeiten vorschlagen, das Vorhandensein interindividueller Unterschiede in der Veränderung zu prüfen. Diese sind die Anwendung von Mixed-Rasch-Modellen auf die bei Veränderungsmessung mit dem LLTM verwendete Datenstruktur und die Verwendung des Martin-Löf-Tests zum Vergleich der Itemparameter aus Vor- und Nachtest. Allen vier Methoden ist gemein, daß ein relativ großer Stichprobenumfang erforderlich ist, um sie sinnvoll einsetzen zu können.

Stelzl (1997) schlägt zunächst vor, mit der üblichen Methodologie hierarchischer Likelihoodquotiententests zu prüfen, ob sich bei Teilung der Stichprobe anhand verschiedener Außenkriterien Gruppenunterschiede zeigen. Stelzl selbst erwähnt drei Probleme dieses Ansatzes. Diese sind die erforderliche Stichprobengröße, die Möglichkeit von individuellen Unterschieden, die mit keinem der gemessenen Außenkriterien zusammenhängen, sowie das Ansteigen des Gesamtrisikos für das Auftreten eines Alpha-Fehlers bei Durchführung einer hohen Anzahl von Signifikanztests. Abgesehen davon, daß interindividuelle Unterschiede kriteriumsunabhängig auftreten können, ist es auch möglich, daß Wechselwirkungen zwischen den einzelnen Außenkriterien existieren (z.B. ein höherer Zuwachs nur für männliche Kinder über 4 Jahre auftritt) bzw. daß die Wirkungen von Außenkriterien systematisch verknüpft sind, z.B. einander aufheben oder multiplizieren. Solche Effekte sind nur bei ``Schachtelung'' der einzelnen Kriterien prüfbar, was eine sehr große Stichprobe notwendig macht, um ausreichende Zellenbesetzungen zu erreichen. Die simultane Prüfung mehrerer geschachtelter Kriterien würde allerdings die von Stelzl angesprochene Überhöhung des Alpha-Risikos verhindern. Auf den von uns verwendeten Datensatz ist dieser Ansatz wegen der erforderlichen Stichprobengröße nicht sinnvoll anwendbar.

Als weitere Variante schlägt Stelzl vor, die Items in zwei Subgruppen zu teilen, für beide Item-Subgruppen Personenparameter zu t1 und zu t2 und die sich daraus ergebenden ``Veränderungsparameter'' pro Person zu errechnen. Wenn sich alle Personen in gleichem Maße verändern, müßte die Korrelation zwischen den beiden Veränderungsparametern gleich Null sein; interindividuelle Unterschiede in den Veränderungen müßten sich als substantielle Korrelation abbilden. Dieser Ansatz erscheint uns äußerst interessant. Wie Stelzl jedoch selbst schreibt, ist er für den von uns analysierten Datensatz insbesondere deswegen nicht gut verwendbar, weil eine hohe Anzahl von Items erforderlich ist, um die Personenparameter für zwei Testhälften zuverlässig zu schätzen.

Im folgenden wollen wir zwei weitere Möglichkeiten zur Identifikation interindividueller Unterschiede in der Veränderung vorschlagen. Die erste hier vorgestellte Variante besteht in der Anwendung von Mixed Rasch Models auf die Datenstruktur, die wir für die LLTM-Analysen verwendet haben: Stellt man die k Items zu t1 und die k gleichen Items zu t2 als einen 2*k Items umfassenden ``Gesamttest'' dar, dann kann man - wiederum unter der Voraussetzung eines ausreichenden Stichprobenumfangs - mit Mixed Rasch Models untersuchen, ob es latente Klassen mit unterschiedlichen Mustern über die 2*k Items gibt. Mit diesem Vorgehen wäre es auch möglich, unterschiedliche quantitative Zuwächse zwischen t1 und t2 zu identifizieren (vgl. Abbildung 1).

 figure50
Figure 1: 3 latente Klassen mit ausschließlich quantitativer, aber unterschiedlich starker Veränderung in den Schwierigkeiten der Items 1 bis 6 zwischen t1 und t2.

Ein Problem dieses Ansatzes ist, daß für eine reliable Schätzung der Item- und Personenparameter eine sehr große Stichprobe erforderlich ist, da die Anzahl an Items doppelt so groß ist wie bei dem von uns beschriebenen Ansatz. Insbesondere wenn zusätzlich zu den in Abbildung 1 theoretisch angenommenen quantitativen Veränderungsklassen auch qualitative Veränderungen auftreten, kann eine relativ hohe Klassenanzahl zur adäquaten Beschreibung der Daten erforderlich sein. In diesem Ansatz wird jedoch ebenfalls von einer distinkten Anzahl unterschiedlicher ``Veränderungsgruppen'' ausgegangen und keine kontinuierliche, individuell unterschiedliche Veränderung angenommen.

Die vierte Möglichkeit, die Anwendung des Martin-Löf-Tests (Martin-Löf, 1973), die wir im folgenden präsentieren, geht auf eine Anregung von J. Rost zurück (vgl. auch Rost, 1982): Der Martin-Löf-Test prüft - in Umkehrung des Ansatzes des Modelltests von Andersen - die Konstanz der Rasch-Personenparameter über verschiedene Itemstichproben. Dieser Test kann auf die hier diskutierte Problematik der (unplausiblen) Annahme gleicher Zuwächse für alle Vpn angewendet werden, indem man Vor- und Nachtest als die beiden Itemsubgruppen definiert. Ähnlich wie der zweite von Stelzl beschriebene Ansatz, die Teilung der Items in zwei Subgruppen, reagiert auch dieser Test nicht auf gleichartige Veränderungen aller Personen, ist aber sensitiv für interindividuelle Differenzen in der Veränderung. Mit dieser Methode ist die Prüfung der Annahme gleichartiger Veränderungen für alle Personen auch schon bei kleineren Stichproben prüfbar - allerdings muß der Test für die zu vergleichenden Personengruppen (hier Versuchs- und Kontrollgruppe) getrennt durchgeführt werden, was die Anforderungen an die Stichprobengröße wiederum erhöht.

Zur Anmerkung von Stelzl, daß in Glück und Spiel (1997) nicht darauf eingegangen wird, wie bei Anwendung von Mixed Rasch Models quantitative Veränderungen innerhalb einer Klasse beschrieben werden können: Dies ist auf relativ einfache Weise möglich, da innerhalb einer Klasse ja auch über die Zeit das Rasch-Modell gilt und solche Unterschiede daher durch Anwendung des LLTM in der im Artikel beschriebenen Weise pro Klasse beschreibbar wären (wieder bei ausreichendem Stichprobenumfang.)

Stelzls Argument bzgl. der Nichtberücksichtigung individueller Veränderungen trifft zumindest für das LLRA auf einer grundlegenden, formalen Ebene zu: Die extremste mögliche Differenzierung ist eine Beschreibung der Veränderungen jeder einzelnen Person. Quantifizierung der Veränderung einer Einzelperson anhand sehr vieler Items mit bekannten Itemparametern, wie von Stelzl als Idealfall beschrieben, ist jedoch nur möglich, wenn die Eindimensionalität (Rasch-Homogenität) der verwendeten Items als sicher gelten kann (Verwendung des LLTM). Der allgemeinere und häufigere Fall ist der eines nicht eindimensionalen Meßinstruments und der Verwendung des LLRA. Betrachtet man nun die Veränderungen auf Einzelitemebene, wie es bei der Anwendung des LLRA geschieht, so sind die möglichen Veränderungen zumindest im dichotomen Fall beschränkt: Eine Person kann über zwei Zeitpunkte nur die Antwortmuster 0/1, 1/0, 1/1 oder 0/0 aufweisen; nur die ersten beiden Muster zeigen eine Veränderung an. Das LLRA kann das Ausmaß an aufgetretener Veränderung nur deshalb auf Intervallskalenniveau quantifizieren, weil es - einfach ausgedrückt - die Häufigkeiten dieser beiden Muster in einer gegebenen Gruppe von Personen betrachtet. Will man innerhalb dieser Gruppe nun optimal differenzieren, müßte man die Personen mit Antwortmuster 0/1 und die Personen mit Antwortmuster 1/0 unterscheiden. Die Veränderungen dieser beiden ``reinen'' Extremgruppen sind jedoch mit dem LLRA nicht quantifizierbar; für die Berechnung eines Effektparameters muß das inverse Muster zumindest einmal auftreten. Dieses Modell kann somit schon aus formalen Gründen nicht optimal zwischen Personen mit unterschiedlichem Ausmaß an Veränderung differenzieren.

Das Ausmaß an sinnvoller ``Differenziertheit'' einer statistischen Analyse ist jedoch von mehreren Aspekten abhängig. Es ist relativ typisch und häufig auch sinnvoll, daß im Zuge der wissenschaftlichen Untersuchung eines bestimmten Bereichs zunächst einfache Modelle aufgestellt werden, die dann durch die weitere Forschung differenziert werden. So könnte z.B. nach einer generellen Überprüfung der Wirksamkeit eines Treatments (mit positivem oder auch negativem Ergebnis) seine unterschiedliche Wirksamkeit für verschiedene Probandengruppen untersucht werden. In jedem Fall ist von substanzwissenschaftlicher Seite her fundiertes theoretisches und empirisches Vorwissen Voraussetzung dafür. Solche Modelle bleiben jedoch immer ``einfacher'' als die Realität bzw. der jeweils betrachtete Realitätsausschnitt. Im Lichte der oben dargestellten Grenzen des LLRA wäre es geradezu ein Idealziel, Außenkriterien zu finden, mit denen Gruppen gebildet werden können, innerhalb derer die Veränderungen so homogen sind, daß das LLRA versagt.

Abschließend sei die Schlußbemerkung von Stelzl (1997) unterstrichen: Untersuchungen zur erforderlichen Stichprobengröße und zur erforderlichen Anzahl von Items für eine differenzierte Beschreibung von Effekten bestimmter Größe wären äußerst wichtig, um die Sinnhaftigkeit der Anwendung probabilistischer Modelle der Veränderungsmessung im Einzelfall abschätzen zu können.




next up previous
Next: References Up: MPR 1997 Vol.2 No.2

Methods of Psychological Research 1997 Vol.2 No.2
© 1998 Pabst Science Publishers