Eine Frau, für die ich arbeitete, bat mich, eine Einweg-ANOVA für einige Daten durchzuführen. Ich antwortete, dass es sich bei den Daten um wiederholte Messdaten (Zeitreihen) handele und dass die Annahme der Unabhängigkeit verletzt sei. Sie antwortete, ich solle mich nicht um die Annahmen kümmern, sondern nur den Test machen und sie würde berücksichtigen, dass die Annahmen möglicherweise nicht erfüllt wurden.
Das schien mir nicht richtig zu sein. Ich habe einige Nachforschungen angestellt und fand diesen wundervollen Blog-Beitrag von David Robinson. K-means Clustering ist kein kostenloses Mittagessen , was mich mit dem No-Free-Lunch-Theorem konfrontiert. Ich habe mir das Originalpapier angesehen und einige folgen Sachen, und ehrlich gesagt ist die Mathematik ein bisschen über meinem Kopf.
Der Kern davon scheint laut David Robinson zu sein, dass die Macht eines statistischen Tests von seinen Annahmen herrührt. Und er gibt zwei großartige Beispiele. Während ich mich in den anderen Artikeln und Blog-Posts darüber umgesehen habe, scheint es, als würde immer entweder auf überwachtes Lernen oder auf Suche verwiesen.
Meine Frage ist also: Gilt dieser Satz für statistische Tests im Allgemeinen? Mit anderen Worten, kann man sagen, dass die Kraft eines t-Tests oder einer ANOVA von der Einhaltung der Annahmen herrührt, und das No-Free-Lunch-Theorem zitieren?
Ich schulde meinem ehemaligen Chef ein abschließendes Dokument über die von mir geleistete Arbeit, und ich würde gerne wissen, ob ich unter Bezugnahme auf das No-Free-Lunch-Theorem behaupten kann, dass Sie die Annahmen eines statistischen Tests nicht einfach ignorieren und sagen können, dass Sie dies berücksichtigen bei der Auswertung der Ergebnisse berücksichtigen.
quelle
Antworten:
Ich kenne keinen Beweis, aber ich wette, das gilt ganz allgemein. Ein Beispiel ist ein Experiment mit 2 Probanden in jeder von 2 Behandlungsgruppen. Der Wilcoxon-Test kann bei 0,05 möglicherweise nicht signifikant sein, der t-Test jedoch. Man könnte sagen, dass seine Macht mehr als die Hälfte aus seinen Annahmen und nicht nur aus den Daten stammt. Für Ihr ursprüngliches Problem ist es nicht angebracht, so zu verfahren, als ob die Beobachtungen pro Proband unabhängig wären. Nachträgliche Berücksichtigung ist sicherlich keine gute statistische Praxis, außer unter ganz besonderen Umständen (z. B. Cluster-Sandwich-Schätzer).
quelle
Wenn Sie möchten, können Sie das No-Free-Lunch-Theorem zitieren , aber Sie können auch nur den Modus Ponens (auch als Gesetz der Loslösung bekannt , die Grundlage des deduktiven Denkens) zitieren , der die Wurzel des No-Free-Lunch-Theorems ist .
Das No-Free-Lunch-Theorem umfasst eine spezifischere Idee: die Tatsache, dass es keinen Algorithmus gibt, der für alle Zwecke geeignet ist. Mit anderen Worten, das No-Free-Lunch-Theorem besagt im Grunde, dass es keine algorithmische Wunderwaffe gibt . Dies beruht auf dem Modus Ponens, denn damit ein Algorithmus oder ein statistischer Test das richtige Ergebnis liefert, müssen Sie die Voraussetzungen erfüllen.
Wenn Sie, wie in allen mathematischen Theoremen, die Prämissen verletzen, ist der statistische Test nur sinnlos und Sie können daraus keine Wahrheit ableiten. Wenn Sie Ihre Daten anhand Ihres Tests erläutern möchten, müssen Sie davon ausgehen, dass die erforderlichen Voraussetzungen erfüllt sind. Wenn dies nicht der Fall ist (und Sie das wissen), ist Ihr Test absolut falsch.
Das liegt daran, dass wissenschaftliches Denken auf Deduktion beruht: Grundsätzlich ist Ihr Test / Gesetz / Satz eine Implikationsregel , die besagt, dass Sie, wenn Sie die Prämisse haben ,
A
folgern könnenB
:A=>B
Wenn Sie aber keine habenA
, können Sie entweder habenB
oder nichtB
, und beide Fälle sind wahr , das ist eine der Grundannahmen für logische Folgerungen / Folgerungen (die Modus-Ponens-Regel). Mit anderen Worten, wenn Sie gegen die Prämissen verstoßen, spielt das Ergebnis keine Rolle und Sie können keine Schlussfolgerungen ziehen .Denken Sie an die binäre Implikationstabelle:
In Ihrem Fall haben Sie also, um es zu vereinfachen
Dependent_Variables => ANOVA_correct
. Wenn Sie also unabhängige Variablen verwenden,Dependent_Variables
istFalse
die Implikation wahr, da dieDependent_Variables
Annahme verletzt wird.Dies ist natürlich sehr simpel und in der Praxis liefert Ihr ANOVA-Test möglicherweise immer noch nützliche Ergebnisse, da fast immer ein gewisser Grad an Unabhängigkeit zwischen abhängigen Variablen besteht. Dies gibt Ihnen jedoch die Idee, warum Sie sich nicht einfach auf den Test verlassen können, ohne die Annahmen zu erfüllen .
Sie können jedoch auch Tests verwenden, bei denen das Original die Voraussetzungen nicht erfüllt, indem Sie Ihr Problem reduzieren : Wenn Sie die Abhängigkeitsbeschränkung explizit lockern, ist Ihr Ergebnis möglicherweise immer noch aussagekräftig, auch wenn dies nicht garantiert ist (da Ihre Ergebnisse dann für das reduzierte Problem gelten, nicht für das Sie können also nicht alle Ergebnisse übersetzen, es sei denn, Sie können nachweisen, dass die zusätzlichen Einschränkungen des neuen Problems sich nicht auf Ihren Test und damit auf Ihre Ergebnisse auswirken.
In der Praxis wird dies häufig verwendet, um praktische Daten zu modellieren, beispielsweise mithilfe von Naive Bayes, indem abhängige (statt unabhängiger) Variablen mithilfe eines Modells modelliert werden, das unabhängige Variablen voraussetzt, und überraschenderweise funktioniert es oft sehr gut und manchmal besser als die Modellrechnung für Abhängigkeiten . Diese Frage zur Verwendung von ANOVA kann Sie auch interessieren, wenn die Daten nicht genau den Erwartungen entsprechen .
Zusammenfassend: Wenn Sie beabsichtigen, an praktischen Daten zu arbeiten, und Ihr Ziel darin besteht, kein wissenschaftliches Ergebnis zu beweisen, sondern ein System zu erstellen, das nur funktioniert (dh einen Webdienst oder eine beliebige praktische Anwendung), die Annahme der Unabhängigkeit (und möglicherweise andere Annahmen) kann gelockert werden, aber wenn Sie versuchen , eine allgemeine Wahrheit abzuleiten / zu beweisen , sollten Sie immer Tests verwenden, die Sie mathematisch garantieren können (oder zumindest sicher und nachweislich davon ausgehen können), dass Sie alle Voraussetzungen erfüllen .
quelle