Ich versuche, eine Reihe von Blog-Posts über p-Werte zu schreiben, und ich dachte, es wäre interessant, dorthin zurückzukehren, wo alles begann - das scheint Pearsons 1900-Papier zu sein. Wenn Sie mit diesem Papier vertraut sind, werden Sie sich daran erinnern, dass dies das Testen der Anpassungsgüte umfasst.
Pearson ist ein bisschen locker mit seiner Sprache, wenn es um p-Werte geht. Er verwendet wiederholt die "Gewinnchancen", wenn er beschreibt, wie sein p-Wert zu interpretieren ist. Zum Beispiel sagt er auf S.168, wenn er über die Ergebnisse von Wiederholungswürfeln mit 12 Würfeln spricht: " ... was uns zu P = .0000016 führt, oder die Chancen sind 62.499 zu 1 gegen ein solches Abweichungssystem bei einem Zufall Bei solchen Gewinnchancen wäre es vernünftig zu folgern, dass die Würfel eine Tendenz zu den höheren Punkten aufweisen. "
In diesem Artikel bezieht er sich auf frühere Arbeiten, einschließlich eines Buches über die kleinsten Fehlerquadrate von Merriman aus dem Jahr 1891.
Aber Pearson legt die Berechnung für p-Werte (bezogen auf die Chi-Quadrat-Güte des Fit-Tests) fest.
War Pearson die erste Person, die sich p-Werte ausgedacht hat? Wenn ich nach p-Werten suche, wird Fisher erwähnt - und seine Arbeit war in den 1920er Jahren.
Bearbeitet: und ein Dankeschön für die Erwähnung von Laplace - er schien sich nicht mit der Nullhypothese zu befassen (Pearson scheint dies implizit zu tun, obwohl er diesen Begriff in seiner Arbeit von 1900 nie verwendet hat). Pearson betrachtete die Prüfung der Anpassungsgüte wie folgt: Unter der Annahme, dass die Zählungen aus einem unvoreingenommenen Prozess abgeleitet wurden, wie hoch ist die Wahrscheinlichkeit, dass die beobachteten Zählungen (und die abweichenderen Zählungen) aus der angenommenen Verteilung resultieren?
Seine Behandlung der Wahrscheinlichkeiten / Chancen (er wandelt die Wahrscheinlichkeiten in Chancen um) legt nahe, dass er mit einer impliziten Idee der Nullhypothese arbeitet. Entscheidend ist auch, dass die Wahrscheinlichkeit, die sich aus dem x ^ 2-Wert ergibt, die Wahrscheinlichkeit "gegen ein System von Abweichungen als unwahrscheinlicher oder unwahrscheinlicher als diese" - wie wir sie heute kennen - in Bezug auf seine berechneten p-Werte zeigt.
Ging Arbuthnot so weit?
Fühlen Sie sich frei, Ihre Kommentare als Antworten einzutragen. Es wäre schön, eine Diskussion zu sehen.
quelle
Antworten:
Jacob Bernoulli (~ 1700) - John Arbuthnot (1710) - Nicolaus Bernoulli (1710er) - Abraham de Moivre (1718)
Der Fall von Arbuthnot 1, siehe Erläuterung unten , kann auch in de Moivres Doctrine of Chance (1718) ab Seite 251-254 nachgelesen werden, der diese Denkrichtung erweitert.
De Moivre macht zwei Schritte / Fortschritte:
Die normale Näherung einer Bernoulli-Verteilung, mit der sich Wahrscheinlichkeiten für Ergebnisse innerhalb oder außerhalb eines bestimmten Bereichs leicht berechnen lassen. In dem Abschnitt vor dem Beispiel zu Arbuthnots Fall schreibt de Moivre über seine Näherung (jetzt als Gauß-Normalverteilung bezeichnet) für die Bernoulli-Verteilung. Diese Näherung erlaubt es, leicht einen p-Wert zu berechnen (was Arbuthnot nicht konnte).
Verallgemeinerung von Arbuthnots Argument. Er erwähnt, dass "diese Argumentationsmethode auch bei einigen anderen sehr interessanten Untersuchungen nützlich sein kann". (Dies kann de Moivre teilweise dafür danken, dass er die allgemeine Anwendbarkeit des Arguments gesehen hat.)
Laut de Moivre schrieb Jacob Bernoulli in seiner Ars Conjectandi über dieses Problem . De Moivre nennt dies auf Englisch „Zuweisen der Grenzen, innerhalb derer sich die Wahrscheinlichkeit eines Ereignisses durch Wiederholung von Experimenten einer gegebenen Wahrscheinlichkeit auf unbestimmte Zeit annähern kann“, aber der Originaltext von Bernouilli ist in lateinischer Sprache. Ich kenne nicht genug Latein, um herauszufinden, ob Bernoulli über ein Konzept wie den p-Wert oder eher über das Gesetz der großen Zahlen schrieb. Interessant ist, dass Bernouilli behauptet, diese Ideen seit 20 Jahren zu haben (und auch das Werk 1713 wurde nach seinem Tod 1705 veröffentlicht, so dass es dem Datum 1710 vorauszugehen scheint, das in den Kommentaren von @Glen_b für Arbuthnot erwähnt wurde).
Eine Quelle der Inspiration für de Moivre war Nicolaus Bernouilli, der 1712/13 die Wahrscheinlichkeit berechnete, dass die Zahl der Jungen mindestens 7037 und höchstens 7363 beträgt, wenn 14000 Kinder geboren wurden und Die Wahrscheinlichkeit für einen Jungen ist 18/35.
(Die Zahlen für dieses Problem basierten auf einer 80-jährigen Statistik für London. Er schrieb darüber in Briefen an Pierre Raymond de Montmort, die in der zweiten Ausgabe (1713) von Montmorts Aufsatz über die Gefährdung veröffentlicht wurden .)
Die Berechnungen, denen ich nicht ganz gefolgt bin, ergaben eine Wahrscheinlichkeit von 43,58 zu 1. (Mit einem Computer, der die Wahrscheinlichkeit aller Terme eines Binoms von 7037 bis 7363 summiert, erhalte ich 175: 1, so dass ich seine Arbeit / Berechnung möglicherweise falsch interpretiert habe. )
1: John Arbuthnot schrieb über diesen Fall in Ein Argument für die göttliche Vorsehung, entnommen aus der konstanten Regelmäßigkeit, die bei der Geburt beider Geschlechter beobachtet wurde (1710).
Geschrieben von StackExchangeStrike
quelle
Ich habe drei unterstützende Links / Argumente, die das Datum ~ 1600-1650 für formal entwickelte Statistiken und viel früher für die einfache Verwendung von Wahrscheinlichkeiten unterstützen.
Wenn Sie das Testen von Hypothesen als Grundlage akzeptieren und die Wahrscheinlichkeit voraussetzen, bietet das Online-Etymologie-Wörterbuch Folgendes:
Wiktionary bietet:
Zu Wahrscheinlichkeit und Statistik bietet Wikipedia :
Aus "Wolfram, Stephen (2002). Eine neue Art von Wissenschaft. Wolfram Media, Inc. S. 1082.":
Andere Quellen:
Im Abschnitt "Historische Ursprünge" heißt es:
[1] Arbuthnott J. Ein Argument für die göttliche Vorsehung, entnommen aus der ständigen Regelmäßigkeit, die bei der Geburt beider Geschlechter beobachtet wurde. Phil Trans 1710; 27: 186–90. doi: 10.1098 / rstl.1710.0011 veröffentlicht am 1. Januar 1710
Wir haben einige weitere Diskussionen auf unserer SE-Seite in Bezug auf die Fischer-Methode im Vergleich zu Neyman-Pearson-Wald. Ist der "Hybrid" zwischen Fisher- und Neyman-Pearson-Ansätzen für statistische Tests wirklich ein "inkohärenter Mischmasch"? .
Ein Artikel im Journal of Epidemiology and Biostatistics (2001) Vol. 6, No. 2, 193–204 von Senn, betitelt: "Meinung: Zwei Beifall für P-Werte?" erklärt dies in der Einleitung:
Verweise
Die American Statistical Association hat eine Webseite zur Geschichte der Statistik , auf der zusammen mit diesen Informationen ein (teilweise unten wiedergegebenes) Poster mit dem Titel "Timeline of Statistics" veröffentlicht ist.
ANZEIGE 2: Der Nachweis einer während der Han-Dynastie durchgeführten Volkszählung ist erhalten.
1500s: Girolamo Cardano berechnet die Wahrscheinlichkeiten verschiedener Würfelwürfe.
1600er: Edmund Halley bezieht die Sterblichkeitsrate auf das Alter und entwickelt Sterbetafeln.
1700: Thomas Jefferson leitet die erste US-Volkszählung.
1839: Die American Statistical Association wird gegründet.
1894: Der Begriff "Standardabweichung" wird von Karl Pearson eingeführt.
1935: RA Fisher veröffentlicht Design of Experiments.
Im Abschnitt "Geschichte" der Wikipedia-Webseite " Gesetz der großen Zahlen " wird erklärt:
Nein wahrscheinlich nicht.
In der " Erklärung der ASA zu p-Werten: Kontext, Prozess und Zweck " (9. Juni 2016) von Wasserstein und Lazar, doi: 10.1080 / 00031305.2016.1154108, gibt es eine offizielle Erklärung zur Definition des p-Werts (die Nr Zweifel, die nicht von allen Disziplinen vereinbart wurden, die p-Werte verwenden oder ablehnen) mit den Worten:
" . Was ist ein p - Wert?
Informell ausgedrückt ist ein p-Wert die Wahrscheinlichkeit, dass eine statistische Zusammenfassung der Daten (z. B. die durchschnittliche Stichprobendifferenz zwischen zwei verglichenen Gruppen) unter einem bestimmten statistischen Modell gleich oder extremer als der beobachtete Wert ist.
3. Grundsätze
...
6. Ein p-Wert allein liefert kein gutes Maß für die Evidenz in Bezug auf ein Modell oder eine Hypothese.
Forscher sollten erkennen, dass ein p-Wert ohne Kontext oder andere Hinweise nur begrenzte Informationen liefert. Zum Beispiel bietet ein p-Wert in der Nähe von 0,05 für sich genommen nur schwache Beweise gegen die Nullhypothese. Ebenso impliziert ein relativ großer p-Wert keinen Beweis für die Nullhypothese; Viele andere Hypothesen stimmen möglicherweise mit den beobachteten Daten überein. Aus diesen Gründen sollte die Datenanalyse nicht mit der Berechnung eines p-Wertes enden, wenn andere Ansätze angemessen und machbar sind. "
Die Ablehnung der Nullhypothese erfolgte wahrscheinlich lange vor Pearson.
Wikipedia-Seite über frühe Beispiele für Nullhypothesentestzustände :
Frühe Entscheidungen der Nullhypothese
Paul Meehl hat argumentiert, dass die erkenntnistheoretische Bedeutung der Wahl der Nullhypothese weitgehend unbeachtet blieb. Wenn die Nullhypothese theoretisch vorhergesagt wird, ist ein genaueres Experiment ein strengerer Test der zugrunde liegenden Theorie. Wenn die Nullhypothese standardmäßig "kein Unterschied" oder "kein Effekt" ist, ist ein genaueres Experiment ein weniger strenger Test der Theorie, die die Durchführung des Experiments motiviert hat. Eine Untersuchung der Ursprünge der letztgenannten Praxis kann daher nützlich sein:
1778: Pierre Laplace vergleicht die Geburtenraten von Jungen und Mädchen in mehreren europäischen Städten. Er führt aus: "Es liegt auf der Hand, dass diese Möglichkeiten nahezu im gleichen Verhältnis stehen". So ist Laplace's Nullhypothese, dass die Geburtenraten von Jungen und Mädchen bei "konventioneller Weisheit" gleich sein sollten.
1900: Karl Pearson entwickelt den Chi-Quadrat-Test, um zu bestimmen, "ob eine gegebene Form der Frequenzkurve die aus einer gegebenen Population gezogenen Proben effektiv beschreibt". Die Nullhypothese lautet also, dass eine Population durch eine theoretisch vorhergesagte Verteilung beschrieben wird. Er verwendet als Beispiel die Zahlen fünf und sechs in den Würfelwurfdaten von Weldon.
1904: Karl Pearson entwickelt das Konzept der "Kontingenz", um festzustellen, ob die Ergebnisse von einem bestimmten kategorialen Faktor unabhängig sind. Hier lautet die Nullhypothese standardmäßig, dass zwei Dinge nicht miteinander zusammenhängen (z. B. Narbenbildung und Sterblichkeitsraten bei Pocken). Die Nullhypothese wird in diesem Fall nicht mehr durch Theorie oder konventionelle Weisheit vorhergesagt, sondern ist das Prinzip der Gleichgültigkeit, das Fisher und andere dazu veranlasst, die Verwendung von "inversen Wahrscheinlichkeiten" abzulehnen.
Obwohl einer Person die Ablehnung einer Nullhypothese zugeschrieben wird, halte ich es nicht für angemessen, sie als " Entdeckung der Skepsis aufgrund einer schwachen mathematischen Position" zu bezeichnen.
quelle