Ich befürchte, dass verwandte Fragen meine nicht beantwortet haben. Wir bewerten die Leistungen von> 2 Klassifikatoren (maschinelles Lernen). Unsere Nullhypothese lautet, dass sich die Leistungen nicht unterscheiden. Wir führen parametrische (ANOVA) und nicht parametrische (Friedman) Tests durch, um diese Hypothese zu bewerten. Wenn sie signifikant sind, möchten wir herausfinden, welche Klassifikatoren sich in einer Post-hoc-Quest unterscheiden.
Meine Frage ist zweifach:
1) Ist eine Korrektur der p-Werte nach mehreren Vergleichstests überhaupt notwendig? Die deutsche Wikipedia-Seite "Alphafehler Kumwürd" sagt, dass das Problem nur auftritt, wenn mehrere Hypothesen mit denselben Daten getestet werden. Beim Vergleich der Klassifikatoren (1,2), (1,3), (2,3) überlappen sich die Daten nur teilweise. Müssen die p-Werte noch korrigiert werden?
2) Die P-Wert-Korrektur wird häufig nach paarweisen Tests mit einem t-Test verwendet. Ist dies auch erforderlich, wenn spezielle Post-hoc-Tests wie der Nemenyi-Test (nicht parametrisch) oder der Tukey-HSD-Test durchgeführt werden? Diese Antwort sagt "Nein" für Tukeys HSD: Korrigiert der Tukey-HSD-Test mehrere Vergleiche? . Gibt es eine Regel oder muss ich diese für jeden möglichen Post-Hoc-Test nachschlagen?
Vielen Dank!
Antworten:
Antwort auf Frage 1
Sie müssen sich auf mehrere Vergleiche einstellen, wenn Sie sich für die Wahrscheinlichkeit interessieren, mit der Sie einen Fehler vom Typ I machen. Eine einfache Kombination aus Metapher / Gedankenexperiment kann helfen:
Wenn Sie sich nicht um Fehler kümmern und sich nicht um Menschen kümmern, die wiederholt und spöttisch Ihre Aufmerksamkeit auf einen bestimmten Cartoon über Jellybeans lenken sich nicht auf mehrere Vergleiche einstellen.
Das Problem der "gleichen Daten" tritt bei familienbezogenen Fehlerkorrekturmethoden (z. B. Bonferroni, Holm-Sidák usw.) auf, da das Konzept der "Familie" etwas vage ist. Die Methoden der Rate falscher Entdeckungen (z. B. Benjamini und Hochberg, Benjamini und Yeuketeli usw.) haben jedoch die Eigenschaft, dass ihre Ergebnisse über verschiedene Gruppen von Schlussfolgerungen hinweg robust sind.
quelle