Wird das Testen von Modellannahmen als P-Hacking / Fischen angesehen?

"P-Hacking", "Fischen" und "Garten der Gabelpfade", wie hier und hier erläutert , beschreiben einen explorativen Datenanalyse-ähnlichen Forschungsstil, der voreingenommene Schätzungen liefert.

Wird das Testen von Modellannahmen (z. B. Normalität, Homoskedastizität in der Regression) unter Verwendung statistischer Tests für denselben Datensatz, der zur Anpassung an das Modell verwendet wird, als "p-Hacking" - oder "Garten der Gabelpfade" -Problem betrachtet?

Die Ergebnisse dieser Tests beeinflussen sicherlich, für welches Modell sich der Forscher letztendlich entscheidet.

hypothesis-testing model-selection multiple-comparisons assumptions philosophical Großartig38
quelle

Siehe Beeinflusst das Testen auf Annahmen den Fehler vom Typ I? .

Scortchi - Monica wieder einsetzen

Annahmen zu testen macht nichts. Aber die Leute testen selten nur , das Ergebnis des Tests beeinflusst, was sie als nächstes tun ... und es ist das "was sie als nächstes tun", das das Problem ist. Wenn sich das Ergebnis des Tests ändert, was Sie tun würden, gibt es eine "Gabel". Es ist wichtig sicherzustellen, dass Sie dort das Richtige fragen.

Glen_b -State Monica

@Glen_b ausgezeichneter Punkt - Wenn Sie beispielsweise Daten auf Normalität testen und dann auswählen, welcher Test verwendet werden soll, je nachdem, ob die Null akzeptiert wurde oder nicht, verwenden Sie im Wesentlichen einen zusammengesetzten Test mit unbekannten Eigenschaften (Fehler vom Typ I und II). .

DeltaIV

@Glen_b, genau das wundere ich mich. Ich bin mir nicht sicher, ob die Auswahl eines Modells basierend auf den Ergebnissen von Tests von Annahmen einen Schätzer beeinflussen würde (ich versuche mir ein Beispiel dafür vorzustellen), aber es würde definitiv die Standardfehler beeinflussen.

Great38

@scortchi, das ist ein großartiges Beispiel dafür, worüber ich mir Sorgen mache. Es scheint jedoch Standard zu sein, Annahmen zu testen oder zumindest anhand der Daten zu bewerten, die zur Anpassung an das Modell verwendet wurden. So wurde ich in all meinen Klassen unterrichtet.

Great38

Antworten:

Es ist nicht ganz dasselbe in dem Sinne, dass die Praxis des Testens, ob Annahmen verletzt wurden, ursprünglich dazu gedacht war, sicherzustellen, dass eine angemessene Analyse durchgeführt wurde, aber wie sich herausstellt, hat dies einige der gleichen Konsequenzen (siehe z. B. diese Frage ). . Aber es ist in einer milderen Form als die extremeren Varianten des P-Hacking, die speziell darauf abzielen, den p-Wert für den interessierenden Effekt irgendwie unter 0,05 zu bringen. Dies gilt nur, wenn Sie mehrere problematische Praktiken kombinieren (z. B. Überprüfung auf Normalität, Überprüfung auf Homoskedastizität, Überprüfung auf Kovariaten, die im Modell "vorhanden" sein sollten, Überprüfung auf Linearität von Kovariaten, Überprüfung von Interaktionen usw.). Ich bin mir nicht sicher, ob jemand untersucht hat, inwieweit dies die endgültige Analyse ungültig macht.

Das andere Problem ist natürlich, dass das Testen auf Normalität normalerweise nicht sinnvoll ist (siehe z . B. diese Diskussion ). Bei kleinen Stichprobengrößen erfassen Sie nicht zuverlässig massive Abweichungen, die wirklich gegen Ihre Annahmen verstoßen, während bei großen Stichprobengrößen z. B. der t-Test gegenüber Abweichungen recht robust wird, der Normalitätstest jedoch kleine Abweichungen erkennt, die keine Rolle spielen. Es ist viel besser, (wann immer möglich) ein geeignetes Modell auf der Grundlage früherer Daten oder Fachkenntnisse anzugeben. Wenn dies nicht möglich ist, ist es möglicherweise am besten, Methoden zu verwenden, die gegenüber Verstößen gegen Verteilungsannahmen robuster sind oder keine / weniger aufweisen.

Björn
quelle

Ich glaube nicht, dass die Überprüfung der Annahmen eines Modells als P-Hacking / Fischen qualifiziert ist. Im ersten Artikel spricht der Autor von Analysten, die wiederholt Analysen für einen Datensatz durchführen und nur das beste Ergebnis melden. Mit anderen Worten, sie zeigen absichtlich ein voreingenommenes Bild dessen, was in den Daten geschieht.

Das Testen der Annahmen der Regression oder eines Modells ist obligatorisch. Es ist nicht zwingend erforderlich, die Daten wiederholt neu abzutasten, um das bestmögliche Ergebnis zu erzielen. Angenommen, die Forscher haben eine ausreichend große Stichprobe, um sie zu entnehmen, werden sie manchmal immer wieder neu abgetastet ... führen Sie immer wieder Hypothesentests durch ... bis sie das gewünschte Ergebnis erzielen. Daher P-Hacking. Sie hacken den p-Wert, indem sie nach dem gewünschten Ergebnis suchen, und werden nicht aufhören, bis sie es finden (Fischen). Selbst wenn sie von 100 Hypothesentests nur 1 mit einem signifikanten Ergebnis erreichen, geben sie den p-Wert an, der zu diesem bestimmten Test gehört, und lassen alle anderen weg.

Macht das Sinn? Wenn Sie die Modellannahmen überprüfen, stellen Sie sicher, dass das Modell für die vorhandenen Daten geeignet ist. Mit P-Hacking / Fischen durchsuchen Sie endlos die Daten / manipulieren die Studie, um das gewünschte Ergebnis zu erzielen.

Wenn Sie zum Zweck eines Mehrfachvergleichs ein Modell endlos durch den Schlamm laufen lassen, um einen Weg zu finden, es ungültig zu machen (oder zu validieren), werden Sie schließlich einen Weg finden. Das ist Angeln. Wenn Sie ein Modell validieren möchten, finden Sie einen Weg. Wenn Sie es ungültig machen möchten, werden Sie einen Weg finden. Der Schlüssel ist, offen zu sein und die Wahrheit herauszufinden - nicht nur zu sehen, was Sie sehen wollen.

Sarah W.
quelle