Ein einzelner statistischer Test kann den Nachweis erbringen, dass die Nullhypothese (H0) falsch und damit die Alternativhypothese (H1) wahr ist. Es kann jedoch nicht verwendet werden, um zu zeigen, dass H0 wahr ist, da die Nichtbeachtung von H0 nicht bedeutet, dass H0 wahr ist.
Nehmen wir jedoch an, Sie haben die Möglichkeit, den statistischen Test viele Male durchzuführen, da Sie viele Datensätze haben, die alle unabhängig voneinander sind. Alle Datensätze sind das Ergebnis desselben Prozesses und Sie möchten eine Aussage (H0 / H1) über den Prozess selbst machen und sind nicht an den Ergebnissen jedes einzelnen Tests interessiert. Sie sammeln dann alle resultierenden p-Werte und stellen über das Histogramm fest, dass die p-Werte klar und gleichmäßig verteilt sind.
Meine Überlegung ist jetzt, dass dies nur passieren kann, wenn H0 wahr ist - sonst würden die p-Werte anders verteilt sein. Reichen diese Beweise also aus, um darauf zu schließen, dass H0 wahr ist? Oder fehlt mir hier etwas Wesentliches, weil ich sehr viel Willenskraft brauchte, um zu schreiben, "schlussfolgern, dass H0 wahr ist", was in meinem Kopf schrecklich falsch klingt.
quelle
Antworten:
Ich mag deine Frage, aber leider ist meine Antwort NEIN, es beweist nicht . Der Grund ist sehr einfach. Woher wissen Sie, dass die Verteilung der p-Werte gleichmäßig ist? Sie müssten wahrscheinlich einen Homogenitätstest durchführen, der Ihnen einen eigenen p-Wert zurückgibt, und Sie haben am Ende die gleiche Art von Inferenzfrage, die Sie vermeiden wollten, nur einen Schritt weiter. Anstatt den p-Wert des ursprünglichen , betrachten Sie jetzt einen p-Wert eines anderen über die Gleichmäßigkeit der Verteilung der ursprünglichen p-Werte.H0 H0 H′0
AKTUALISIEREN
Hier ist die Demonstration. Ich generiere 100 Proben von 100 Beobachtungen aus der Gauß- und Poisson-Verteilung und erhalte dann 100 p-Werte für den Normalitätstest jeder Probe. Die Prämisse der Frage ist also, dass wenn die p-Werte aus einer gleichmäßigen Verteilung stammen, sie beweist, dass die Nullhypothese korrekt ist, was eine stärkere Aussage ist als eine übliche Aussage, die statistische Schlussfolgerungen nicht ablehnt. Das Problem ist, dass "die p-Werte von Uniform sind" eine Hypothese selbst ist, die Sie irgendwie testen müssen.
Im Bild (erste Reihe) unten zeige ich die Histogramme der p-Werte aus einem Normalitätstest für die Guassian- und Poisson-Stichprobe, und Sie können sehen, dass es schwer zu sagen ist, ob einer einheitlicher als der andere ist. Das war mein Hauptpunkt.
Die zweite Zeile zeigt eine der Stichproben aus jeder Verteilung. Die Stichproben sind relativ klein, so dass Sie in der Tat nicht zu viele Fächer haben können. Tatsächlich sieht diese spezielle Gauß-Stichprobe auf dem Histogramm überhaupt nicht so viel Gauß aus.
In der dritten Zeile zeige ich die kombinierten Stichproben von 10.000 Beobachtungen für jede Verteilung in einem Histogramm. Hier können Sie mehr Behälter haben und die Formen sind offensichtlicher.
Schließlich führe ich den gleichen Normalitätstest durch und erhalte p-Werte für die kombinierten Samples, und es lehnt die Normalität für Poisson ab, während es für Gauß nicht lehnt. Die p-Werte sind: [0.45348631] [0.]
Dies ist natürlich kein Beweis, sondern die Demonstration der Idee, dass Sie den gleichen Test für die kombinierte Stichprobe durchführen sollten, anstatt zu versuchen, die Verteilung von p-Werten aus Teilstichproben zu analysieren.
Hier ist Python-Code:
quelle
David Hume und das Problem der Induktion
Über Jahrhunderte war jeder von Europäern beobachtete Schwan weiß. Dann entdeckten die Europäer Australien und sahen schwarze Schwäne.
Über Jahrhunderte stimmte Newtons Gravitationsgesetz mit der Beobachtung überein und wurde für richtig gehalten. Es wurde jedoch durch Einsteins allgemeine Relativitätstheorie umgeworfen.
Eine (unvollständige) Auflistung von Möglichkeiten für die Zukunft:
Karl Popper und der Falsifikationismus
Nach Ansicht von Karl Popper ist kein wissenschaftliches Gesetz jemals als wahr erwiesen. Wir haben nur wissenschaftliche Gesetze, die sich noch nicht als falsch erwiesen haben.
Popper argumentierte, dass die Wissenschaft voranschreitet, indem sie Hypothesen errät und sie einer strengen Prüfung unterwirft. Es schreitet fort durch Abzug (Beobachtung, die Theorien als falsch erweist), nicht durch Induktion (wiederholte Beobachtung, die Theorien als wahr erweist). Ein Großteil der frequentistischen Statistiken wurde im Einklang mit dieser Philosophie erstellt.
Poppers Ansicht war immens einflussreich, aber wie Kuhn und andere argumentierten, entspricht sie nicht ganz der empirisch beobachteten Praxis einer erfolgreichen Wissenschaft.
Bayesianische, subjektive Wahrscheinlichkeit
Dies ist eine logische Methode, um Ihre eigenen subjektiven Überzeugungen zu modellieren, aber keine magische Methode, um Wahrscheinlichkeiten zu produzieren, die der Realität entsprechen. Eine schwierige Frage für jede Bayesianische Interpretation ist, woher die Priors kommen. Was ist auch, wenn das Modell falsch angegeben ist?
George P. Box
Ein berühmter Spruch von George EP Box lautet: "Alle Modelle sind falsch, aber einige sind nützlich."
Das Newtonsche Gesetz mag nicht wahr sein, aber es ist immer noch nützlich für viele Probleme. Die Sichtweise von Box ist im modernen Big-Data-Kontext, in dem Studien so überlastet sind, dass Sie im Grunde jede aussagekräftige Aussage ablehnen können, sehr wichtig. Streng wahr gegen falsch ist eine schlechte Frage: Entscheidend ist, ob ein Modell Ihnen hilft, die Daten zu verstehen.
Zusätzliche Kommentare
Vielleicht auch von Interesse ist die statistische Analyse der Ergebnisse mehrerer Studien als Meta-Analyse .
Wie weit Sie über enge statistische Interpretationen hinausgehen können, ist eine schwierige Frage.
quelle
In gewisser Weise haben Sie recht (siehe die p-Kurve) mit einigen kleinen Einschränkungen:
Bei realistischen Anwendungen treten häufig zusätzliche Probleme auf. Diese entstehen meistens, weil in der Regel keine Person / Labor / Studiengruppe alle notwendigen Studien durchführen kann. Infolgedessen neigt man dazu, sich Studien aus vielen Gruppen anzuschauen, bei denen Sie Bedenken haben (dh, wenn Sie alle relevanten Experimente selbst durchgeführt hätten, zumindest wüssten Sie das), signifikante / überraschende Ergebnisse nicht korrekt zu melden. P-Hacking, mehrere Tests / mehrere Testkorrekturen und so weiter.
quelle
Nullhypothese (H0): Die Schwerkraft lässt alles im Universum auf die Erdoberfläche fallen.
Alternative Hypothese (H1): Nichts fällt jemals.
quelle
Gravity causes everything in the universe to fall toward Earth's surface
nicht die Alternativhypothese istThere is at least one thing in the universe that does not fall toward the Earth's surface
und nichtNothing ever falls
?