Gibt eine gleichmäßige Verteilung vieler p-Werte statistische Beweise dafür, dass H0 wahr ist?

28

Ein einzelner statistischer Test kann den Nachweis erbringen, dass die Nullhypothese (H0) falsch und damit die Alternativhypothese (H1) wahr ist. Es kann jedoch nicht verwendet werden, um zu zeigen, dass H0 wahr ist, da die Nichtbeachtung von H0 nicht bedeutet, dass H0 wahr ist.

Nehmen wir jedoch an, Sie haben die Möglichkeit, den statistischen Test viele Male durchzuführen, da Sie viele Datensätze haben, die alle unabhängig voneinander sind. Alle Datensätze sind das Ergebnis desselben Prozesses und Sie möchten eine Aussage (H0 / H1) über den Prozess selbst machen und sind nicht an den Ergebnissen jedes einzelnen Tests interessiert. Sie sammeln dann alle resultierenden p-Werte und stellen über das Histogramm fest, dass die p-Werte klar und gleichmäßig verteilt sind.

Meine Überlegung ist jetzt, dass dies nur passieren kann, wenn H0 wahr ist - sonst würden die p-Werte anders verteilt sein. Reichen diese Beweise also aus, um darauf zu schließen, dass H0 wahr ist? Oder fehlt mir hier etwas Wesentliches, weil ich sehr viel Willenskraft brauchte, um zu schreiben, "schlussfolgern, dass H0 wahr ist", was in meinem Kopf schrecklich falsch klingt.

Leander Moesinger
quelle
1
Vielleicht interessiert Sie meine Antwort auf eine andere Frage stats.stackexchange.com/questions/171742/…, die hier einige Kommentare zu den Hypothesen enthält.
mdewey
H0 ist nach seiner Definition falsch.
Joshua
1
Nebenbei bemerkt, der Grund, warum ich so viele Tests habe (und nicht nur alle Daten zu einem einzigen zusammengefasst habe), ist, dass meine Daten räumlich rund um den Globus verteilt sind und ich wollte sehen, ob es räumliche Muster im gibt p-Werte (gibt es nicht, aber wenn es solche gäbe, würde dies bedeuten, dass entweder die Unabhängigkeit verletzt wird oder dass H0 / H1 in verschiedenen Teilen der Welt wahr ist). Ich habe dies nicht in den Fragetext aufgenommen, weil ich es allgemein halten wollte.
Leander Moesinger

Antworten:

22

Ich mag deine Frage, aber leider ist meine Antwort NEIN, es beweist nicht . Der Grund ist sehr einfach. Woher wissen Sie, dass die Verteilung der p-Werte gleichmäßig ist? Sie müssten wahrscheinlich einen Homogenitätstest durchführen, der Ihnen einen eigenen p-Wert zurückgibt, und Sie haben am Ende die gleiche Art von Inferenzfrage, die Sie vermeiden wollten, nur einen Schritt weiter. Anstatt den p-Wert des ursprünglichen , betrachten Sie jetzt einen p-Wert eines anderen über die Gleichmäßigkeit der Verteilung der ursprünglichen p-Werte.H0H0H0

AKTUALISIEREN

Hier ist die Demonstration. Ich generiere 100 Proben von 100 Beobachtungen aus der Gauß- und Poisson-Verteilung und erhalte dann 100 p-Werte für den Normalitätstest jeder Probe. Die Prämisse der Frage ist also, dass wenn die p-Werte aus einer gleichmäßigen Verteilung stammen, sie beweist, dass die Nullhypothese korrekt ist, was eine stärkere Aussage ist als eine übliche Aussage, die statistische Schlussfolgerungen nicht ablehnt. Das Problem ist, dass "die p-Werte von Uniform sind" eine Hypothese selbst ist, die Sie irgendwie testen müssen.

Im Bild (erste Reihe) unten zeige ich die Histogramme der p-Werte aus einem Normalitätstest für die Guassian- und Poisson-Stichprobe, und Sie können sehen, dass es schwer zu sagen ist, ob einer einheitlicher als der andere ist. Das war mein Hauptpunkt.

Die zweite Zeile zeigt eine der Stichproben aus jeder Verteilung. Die Stichproben sind relativ klein, so dass Sie in der Tat nicht zu viele Fächer haben können. Tatsächlich sieht diese spezielle Gauß-Stichprobe auf dem Histogramm überhaupt nicht so viel Gauß aus.

In der dritten Zeile zeige ich die kombinierten Stichproben von 10.000 Beobachtungen für jede Verteilung in einem Histogramm. Hier können Sie mehr Behälter haben und die Formen sind offensichtlicher.

Schließlich führe ich den gleichen Normalitätstest durch und erhalte p-Werte für die kombinierten Samples, und es lehnt die Normalität für Poisson ab, während es für Gauß nicht lehnt. Die p-Werte sind: [0.45348631] [0.]

Bildbeschreibung hier eingeben

Dies ist natürlich kein Beweis, sondern die Demonstration der Idee, dass Sie den gleichen Test für die kombinierte Stichprobe durchführen sollten, anstatt zu versuchen, die Verteilung von p-Werten aus Teilstichproben zu analysieren.

Hier ist Python-Code:

import numpy as np
from scipy import stats
from matplotlib import pyplot as plt

def pvs(x):
    pn = x.shape[1]
    pvals = np.zeros(pn)
    for i in range(pn):
        pvals[i] = stats.jarque_bera(x[:,i])[1]
    return pvals

n = 100
pn = 100
mu, sigma = 1, 2
np.random.seed(0)
x = np.random.normal(mu, sigma, size=(n,pn))
x2 = np.random.poisson(15, size=(n,pn))
print(x[1,1])

pvals = pvs(x)
pvals2 = pvs(x2)

x_f = x.reshape((n*pn,1))
pvals_f = pvs(x_f)

x2_f = x2.reshape((n*pn,1))
pvals2_f = pvs(x2_f)
print(pvals_f,pvals2_f)

print(x_f.shape,x_f[:,0])


#print(pvals)
plt.figure(figsize=(9,9))
plt.subplot(3,2,1)
plt.hist(pvals)
plt.gca().set_title('True Normal')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,2)
plt.hist(pvals2)
plt.gca().set_title('Poisson')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,3)
plt.hist(x[:,0])
plt.gca().set_title('a small sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,4)
plt.hist(x2[:,0])
plt.gca().set_title('a small Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,5)
plt.hist(x_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,6)
plt.hist(x2_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.show()
Aksakal
quelle
2
@LeanderMoesinger du wirst einen stärkeren Punkt machen, indem du alle deine Tests in einem sammelst. Angenommen, Sie haben eine Stichprobe mit 100 Beobachtungen und erhalten den p-Wert. Holen Sie sich dann 99 zusätzliche Proben und erhalten Sie am Ende 100 p-Werte. Stattdessen könnten Sie einfach eine Stichprobe mit 10.000 Beobachtungen durchführen und den p-Wert erhalten, aber das wird überzeugender sein.
Aksakal
1
@LeanderMoesinger, es ist wahrscheinlich nicht klein
Aksakal
1
Ihre Antwort geht nicht auf die Frage ein, er hat nicht nach Beweisen gefragt, sondern nach Beweisen .
Carlos Cinelli
3
@CarlosCinelli, er wird eine Reihe von p-Werten haben, von denen er behaupten würde, dass sie einheitlich sind. Wie ist das ein Beweis, wenn er nicht nachweist, dass die Werte von der Uniform stammen? Davon spreche ich.
Aksakal
2
@Aksakal Hier geht es um Mathematik. Ein beobachtetes Ereignis (wie eine Folge von p-Werten) ist möglicherweise kein Beweis für etwas, aber der Grund folgt logischerweise nicht aus Ihrer Argumentation.
Carlos Cinelli
21

n

H0H0

David Hume und das Problem der Induktion

H0H0

aA[aB]

  • Über Jahrhunderte war jeder von Europäern beobachtete Schwan weiß. Dann entdeckten die Europäer Australien und sahen schwarze Schwäne.

  • Über Jahrhunderte stimmte Newtons Gravitationsgesetz mit der Beobachtung überein und wurde für richtig gehalten. Es wurde jedoch durch Einsteins allgemeine Relativitätstheorie umgeworfen.

H0

Eine (unvollständige) Auflistung von Möglichkeiten für die Zukunft:

Karl Popper und der Falsifikationismus

Nach Ansicht von Karl Popper ist kein wissenschaftliches Gesetz jemals als wahr erwiesen. Wir haben nur wissenschaftliche Gesetze, die sich noch nicht als falsch erwiesen haben.

Popper argumentierte, dass die Wissenschaft voranschreitet, indem sie Hypothesen errät und sie einer strengen Prüfung unterwirft. Es schreitet fort durch Abzug (Beobachtung, die Theorien als falsch erweist), nicht durch Induktion (wiederholte Beobachtung, die Theorien als wahr erweist). Ein Großteil der frequentistischen Statistiken wurde im Einklang mit dieser Philosophie erstellt.

Poppers Ansicht war immens einflussreich, aber wie Kuhn und andere argumentierten, entspricht sie nicht ganz der empirisch beobachteten Praxis einer erfolgreichen Wissenschaft.

Bayesianische, subjektive Wahrscheinlichkeit

θ

θθθP(θ)P(θX)θX. Wie Sie sich in verschiedenen Situationen verhalten, entspricht in gewisser Weise diesen subjektiven Wahrscheinlichkeiten.

Dies ist eine logische Methode, um Ihre eigenen subjektiven Überzeugungen zu modellieren, aber keine magische Methode, um Wahrscheinlichkeiten zu produzieren, die der Realität entsprechen. Eine schwierige Frage für jede Bayesianische Interpretation ist, woher die Priors kommen. Was ist auch, wenn das Modell falsch angegeben ist?

George P. Box

Ein berühmter Spruch von George EP Box lautet: "Alle Modelle sind falsch, aber einige sind nützlich."

Das Newtonsche Gesetz mag nicht wahr sein, aber es ist immer noch nützlich für viele Probleme. Die Sichtweise von Box ist im modernen Big-Data-Kontext, in dem Studien so überlastet sind, dass Sie im Grunde jede aussagekräftige Aussage ablehnen können, sehr wichtig. Streng wahr gegen falsch ist eine schlechte Frage: Entscheidend ist, ob ein Modell Ihnen hilft, die Daten zu verstehen.

Zusätzliche Kommentare

θ0

Vielleicht auch von Interesse ist die statistische Analyse der Ergebnisse mehrerer Studien als Meta-Analyse .

Wie weit Sie über enge statistische Interpretationen hinausgehen können, ist eine schwierige Frage.

Matthew Gunn
quelle
Dies war eine interessante Lektüre und gab ein paar nette Dinge zum Nachdenken! Ich wünschte, ich könnte mehrere Antworten akzeptieren.
Leander Moesinger
Eine ziemliche Erklärung. Mein Professor fasste Kuhn einmal im Geiste von Popper zusammen: "Die Wissenschaft schreitet von Begräbnis zu Begräbnis voran"
skrubber 13.11.18
Kuhn usw. interpretieren Popper bekanntermaßen falsch, wenn er behauptet, seine Beobachtungen stimmen nicht mit der Art und Weise überein, wie Wissenschaft betrieben wird. Dies ist als einheimischer Falsifikationismus bekannt und nicht das, was Popper (später) vorgetragen hat. Es ist ein Strohmann.
Konrad Rudolph
2
Es sind Antworten wie diese, die ich immer wieder auf StackExchange-Sites besuche.
Trilarion
5

In gewisser Weise haben Sie recht (siehe die p-Kurve) mit einigen kleinen Einschränkungen:

  1. pααH0
  2. H0H0

Bei realistischen Anwendungen treten häufig zusätzliche Probleme auf. Diese entstehen meistens, weil in der Regel keine Person / Labor / Studiengruppe alle notwendigen Studien durchführen kann. Infolgedessen neigt man dazu, sich Studien aus vielen Gruppen anzuschauen, bei denen Sie Bedenken haben (dh, wenn Sie alle relevanten Experimente selbst durchgeführt hätten, zumindest wüssten Sie das), signifikante / überraschende Ergebnisse nicht korrekt zu melden. P-Hacking, mehrere Tests / mehrere Testkorrekturen und so weiter.

Björn
quelle
1
(+1) Der Powerpoint ist enorm wichtig! Verschiedene Theorien können beobachtungsgleiche Daten liefern, und ein kritischer Teil der Versuchsplanung besteht darin, Daten zu erstellen und / oder zu sammeln, mit denen Sie unterscheiden können.
Matthew Gunn
-2

Nullhypothese (H0): Die Schwerkraft lässt alles im Universum auf die Erdoberfläche fallen.

Alternative Hypothese (H1): Nichts fällt jemals.

p<0.01

usul
quelle
2
Glaubst du, Galileo hat eine Million Versuche gemacht? Nichts davon ist in den Naturwissenschaften notwendig. Das Aufstellen der Naturgesetze durch Anwendung wissenschaftlicher Methoden reduziert sich nicht auf statistische Folgerungen.
Aksakal
1
-1 Dies ist wissenschaftlich, statistisch und historisch ungenau. Die Griechen glaubten einst, dass es die Affinität war, die Objekte auf die Erde zog. Nicht schlecht, erklärt aber die 3+ Körpersystemprobleme nicht gut. Hypothesen sollten komplementär sein. Die Angabe einer möglicherweise bekannten Verzerrung als H_0 und das Zeigen von Experimenten führen weiterhin zu derselben falschen Schlussfolgerung, was die Schlussfolgerung nicht korrekt macht. zB verdienen Frauen weniger als Männer, weil sie weniger getrieben sind, probieren Sie alle Frauengehälter aus, H_0 ist wahr!
AdamO
@AdamO das ist genau mein Punkt.
usul
@AdamO, in den westlichen Ländern verdienen Frauen weniger, wenn sie aus einer Vielzahl von Gründen weniger arbeiten, einschließlich ihrer eigenen Wahl, jeglicher Art von Fehlanreizen und eines an manchen Orten feindlichen Arbeitsumfelds. Wenn sie gleich arbeiten, verdienen sie ungefähr das Gleiche, z. B. sehen Sie sich die Gehälter für Medicare-Krankenschwestern an, bei denen Frauen die überwiegende Mehrheit bilden: medscape.com/slideshow/… . Sie verdienen alle die gleichen 37 Dollar, wenn sie stündlich arbeiten. Natürlich nicht zum Thema.
Aksakal
2
Wenn Ihre Nullhypothese Gravity causes everything in the universe to fall toward Earth's surfacenicht die Alternativhypothese ist There is at least one thing in the universe that does not fall toward the Earth's surfaceund nicht Nothing ever falls?
Eff