Stellungnahme des DGPs-Vorstands zur Praxis der automatischen Plausibilitätsüberprüfung wissenschaftlicher Arbeiten mit statcheck

20.10.2016

Seit Ende August 2016 wurden 50.000 publizierte Arbeiten in psychologischen Fachzeitschriften einer automatischen Plausibilitätsüberprüfung unterzogen: mit Hilfe des Programms statcheck, entwickelt an der Universität Tilburg und zurzeit als Beta-Version (und als App) kostenfrei zum Download verfügbar (Epskamp & Nuijten, 2016), wurden die Volltexte wissenschaftlicher Veröffentlichungen (pdf-Dateien) gescannt; es wurde automatisiert überprüft, ob statistische Angaben (p-Werte im Sinne des Nullhypothesen-Signifikanztests; Freiheitsgrade von Prüfverteilungen etc.) korrekt berichtet bzw. plausibel sind. Das Ergebnis dieser Überprüfung wurde für jeden überprüften Artikel anschließend auf pubpeer, einer Plattform, die den Austausch über wissenschaftliche Arbeiten fördern möchte, veröffentlicht.

Die Autorinnen bzw. Autoren von statcheck betonen zwar in Interviews (etwa mit dem Online-Magazin Vox), dass es ihnen nicht darum gehe, einzelne Forscherinnen und Forscher an den Pranger zu stellen, sondern vielmehr, sie darin zu unterstützen, einmal gemachte Fehler zu korrigieren und diese zukünftig zu vermeiden. Dennoch sind viele Forscherinnen und Forscher, insbesondere jene, deren Artikel zu den 50.000 überprüften Arbeiten gehören, besorgt darüber, dass die Überprüfung ohne jede vorherige Absprache mit ihnen, ohne Kontrolle des Algorithmus und ohne die Möglichkeit einer Stellungnahme geschah und sofort veröffentlicht wird und dass es offenbar nicht ohne weiteres möglich ist, eine falsch positive Fehlerdiagnose zu korrigieren, wenn sie einmal auf pubpeer veröffentlicht wurde.

Die Deutsche Gesellschaft für Psychologie teilt diese Auffassung. Zwar kann eine automatische Überprüfung statistischer Informationen in publizierten wissenschaftlichen Arbeiten als eine Möglichkeit verstanden werden, Qualitätssicherung in der psychologischen Forschung zu betreiben. In der Tat kommt es – etwa beim Berichten des exakten p-Wertes im Rahmen einer Signifikanztestung – nicht selten zu Fehlern und Inkonsistenzen (Nuijten et al., 2015). Automatisierte Algorithmen können hier hilfreiche Dienste leisten: so kann jede Forscherin und jeder Forscher statcheck nutzen, um das eigene Manuskript kurz vor der Einreichung noch einmal auf statistische Fehler hin zu prüfen.

Der Umgang mit Fehlern, die dann gegebenenfalls entdeckt werden, erfordert jedoch Sensibilität und Kooperationsbereitschaft auf Seiten aller Beteiligten. Bevor ein vermeintlicher Fehler in einer publizierten Arbeit öffentlich gemacht wird, sollte den Autorinnen bzw. Autoren des entsprechenden Artikels die Möglichkeit gegeben werden, die Korrektheit der Fehlerdiagnose zu überprüfen, gegebenenfalls die Ursachen für den Fehler zu klären und diesbezüglich Stellung zu nehmen.

Wie groß die Gefahr von falsch positiven Fehlerdiagnosen bei statcheck ist, zeigt der Kommentar von Thomas Schmidt, Professor für Allgemeine Psychologie an der TU Kaiserslautern. Schmidt weist darauf hin, dass statcheck bislang noch nicht mit sogenannten „korrigierten“ p-Werten, die etwa aus der Korrektur der Freiheitsgrade bei Verletzung statistischer Voraussetzungen resultieren, umgehen könne. Auch die Autorinnen und Autoren von statcheck sind sich des Problems falsch positiver Fehlermeldungen bewusst und weisen immer wieder darauf hin, dass ihr Algorithmus „work in progress“ sei. Das Problem ist jedoch: wenn ein vermeintlicher Fehler in einem publizierten Artikel einmal öffentlich gemacht ist, entsteht gegebenenfalls schnell ein Reputationsschaden. Verschärft wird das Problem dadurch, dass entsprechende Kommentare auf pubpeer offenbar nicht ohne weiteres zu löschen sind.

Die Deutsche Gesellschaft für Psychologie befürwortet den Einsatz automatisierter Algorithmen zur Fehlerkontrolle in wissenschaftlichen Veröffentlichungen, sofern sie valide Ergebnisse liefern. Sie hält jedoch die Praxis einer sofortigen Veröffentlichung vermeintlicher Fehlerdiagnosen ohne vorherige Rücksprache mit den jeweiligen Autorinnen und Autoren für äußerst bedenklich. Solange unbekannt ist, wie viele falsch positive Fehlerdiagnosen statcheck überhaupt produziert (und auch, wie viele tatsächliche Fehler statcheck nicht findet, also falsch Negative), sollten die Ergebnisse eines statcheck-Screenings nicht veröffentlicht werden – weder in wissenschaftlichen Artikeln noch (oder besser gesagt: insbesondere nicht) in Form eines Kommentars auf pubpeer. Ferner sollten entsprechende Fehlermeldungen auf pubpeer, sollten sie sich als falsch positive Fehlermeldungen erweisen, sofort gelöscht werden.

Literaturverweise:

Epskamp, S. & Nuijten, M. B. (2016). statcheck: Extract statistics from articles and recompute p values. [Online Dokument]. URL: CRAN.R-project.org/package=statcheck (R package version 1.2.2)

Nuijten, M. B., Hartgerink, C. H. J., van Assen, M. A. L. M., Epskamp, S., & Wicherts, J. M. (2015). The prevalence of statistical reporting errors in psychology (1985-2013). Behavior Research Methods. [Online First Publication]. DOI: 10.3758/s13428-015-0664-2

 

Replik der Statcheck-Gruppe auf die DGPs-Stellungnahme:

Eine Replik der Statcheck-Gruppe sowie eine persönliche Rückmeldung von Chris Hartgerink an den DGPs-Vorstand können hier abgerufen werden:

 

 

Stellungnahme_DGPs_statcheck_251016.pdf
Stellungnahme_DGPs_statcheck_v04_eng_251016.pdf
Statcheck___reply_DGPs.pdf
Reply_Chris_Hartgerink.pdf

<- Zurück zu: Empfehlungen und Stellungnahmen


nach oben