Warum weiterhin Hypothesentests unterrichten und anwenden (wenn Konfidenzintervalle verfügbar sind)?

56

Warum weiterhin Hypothesentests (mit all ihren schwierigen Konzepten und die zu den statistischsten Sünden zählen) für Probleme unterrichten und anwenden, bei denen es einen Intervallschätzer gibt (Vertrauen, Bootstrap, Glaubwürdigkeit oder was auch immer)? Was ist die beste Erklärung (falls vorhanden) für die Schüler? Nur tradition? Die Ansichten werden sehr willkommen sein.

Washington S. Silva
quelle
Duplikat?
csgillespie
4
Diese Zitate sind sehr angemessen. Alle Modelle sind falsch, aber einige sind nützlich.
mpiktas

Antworten:

60

Dies ist meine persönliche Meinung, daher bin ich mir nicht sicher, ob dies als Antwort geeignet ist.

Warum sollten wir Hypothesentests unterrichten?

Kurz gesagt, ein sehr wichtiger Grund ist, dass höchstwahrscheinlich in der Zeit, die Sie zum Lesen dieses Satzes benötigen, Hunderte, wenn nicht Tausende (oder Millionen) Hypothesentests in einem Radius von 3 m um Ihren Sitzplatz durchgeführt wurden.

Ihr Mobiltelefon verwendet definitiv einen Likelihood-Ratio-Test, um zu entscheiden, ob es sich in Reichweite einer Basisstation befindet oder nicht. Die WLAN-Hardware Ihres Laptops macht dasselbe bei der Kommunikation mit Ihrem Router.

Die Mikrowelle, die Sie zum automatischen Aufwärmen dieses zwei Tage alten Stücks Pizza verwendet haben, verwendete einen Hypothesentest, um zu entscheiden, wann Ihre Pizza heiß genug war.

Das Traktionskontrollsystem Ihres Autos hat ausgelöst, als Sie auf einer vereisten Straße zu viel Gas gegeben haben, oder das Reifendruck-Warnsystem hat Sie darüber informiert, dass der Reifen auf der Beifahrerseite ungewöhnlich niedrig war und die Scheinwerfer gegen 5 Uhr automatisch aufleuchteten: 19 Uhr als die Abenddämmerung hereinbrach.

Ihr iPad rendert diese Seite im Querformat, basierend auf (lauten) Beschleunigungsmessern.

Ihr Kreditkartenunternehmen hat Ihre Karte gesperrt, als "Sie" einen Flachbildfernseher bei einem Best Buy in Texas und einen Diamantring im Wert von 2000 USD bei Zales in einem Einkaufszentrum im US-Bundesstaat Washington innerhalb von ein paar Stunden nach dem Kauf von Mittagessen, Benzin und einem Film gekauft haben in der Nähe Ihres Hauses in den Vororten von Pittsburgh.

Die Hunderttausende von Bits, die gesendet wurden, um diese Webseite in Ihrem Browser zu rendern, wurden einzeln einem Hypothesentest unterzogen, um festzustellen, ob es sich höchstwahrscheinlich um eine 0 oder eine 1 handelte (zusätzlich zu einer erstaunlichen Fehlerkorrektur).

Schauen Sie sich zu Ihrer Rechten nur ein wenig diese "verwandten" Themen an.

All diese Dinge "geschahen" aufgrund von Hypothesentests . Für viele dieser Dinge könnte eine Intervallschätzung einiger Parameter berechnet werden. Vor allem für automatisierte industrielle Prozesse ist jedoch die Verwendung und das Verständnis von Hypothesentests von entscheidender Bedeutung.


Auf einer theoretischeren statistischen Ebene ergibt sich das wichtige Konzept der statistischen Potenz ganz natürlich aus einem Rahmen für Entscheidungstheorien / Hypothesentests. Außerdem glaube ich, dass "sogar" ein reiner Mathematiker die Schönheit und Einfachheit des Neyman-Pearson-Lemmas und seines Beweises schätzen kann.

Dies soll nicht heißen, dass das Testen von Hypothesen gut gelehrt oder verstanden wird. Im Großen und Ganzen ist es nicht. Und obwohl ich - insbesondere in den medizinischen Wissenschaften - zustimmen würde, dass das Berichten von Intervallschätzungen zusammen mit Effektgrößen und Begriffen von praktischer vs. statistischer Signifikanz praktisch allen formalen Hypothesentests vorzuziehen ist, bedeutet dies nicht, dass Hypothesentests und die damit verbundenen Tests durchgeführt werden Konzepte sind an sich nicht wichtig und interessant.

Kardinal
quelle
2
Vielen Dank für die interessante Liste von Beispielen. Angesichts des Ziels der Frage: Um zur Debatte über die Überprüfung unserer Statistikkurse beizutragen, werden wir versuchen, mehr Details über die Durchführung von Tests in modernen Geräten zu erhalten, was eine große Motivation für unsere Ingenieurstudenten sein kann.
Washington S. Silva
3
Die meisten Ihrer Beispiele benötigen keine klassische Hypothesenprüfung (die ein festes Konfidenzniveau impliziert), sondern ein Entscheidungsverfahren.
kjetil b halvorsen
1
Lieber @kjetil: Ein Downvote scheint hier ein wenig hart zu sein, um ehrlich zu sein. Tatsächlich stellt die Frage keine spezifischen Fragen zum Testen klassischer Hypothesen, und meine Antwort trifft diese Annahme auch nicht! ( Hypothesentests werden hier mit gutem Grund breit ausgelegt.)
Kardinal
1
Ich muss eine Mikrowelle mit automatischer Aufwärmung kaufen.
Jmbejara
2
Dies ist eine sehr eloquente Antwort, aber ich wäre Ihnen sehr dankbar, wenn Sie etwas näher erläutern würden, warum all diese Dinge "Hypothesentests" sind. Ich verstehe, dass alle Ihre Beispiele automatisierte binäre Entscheidungen betreffen. Ich stelle mir vor, dass in den meisten Fällen ein bestimmter Wert gemessen und dann mit einem Grenzwert verglichen wird, um zu entscheiden, ob er über oder unter dem Grenzwert liegt (und somit zur Entscheidung führt). Ist dies für Sie bereits ein "Hypothesentest" oder haben Sie etwas anderes gemeint? Ich denke, als OP gefragt wurde, warum Hypothesentests noch gelehrt werden, bezog man sich nicht auf einfache Schwellenwerte.
Amöbe sagt Reinstate Monica
29

Ich unterrichte Hypothesentests aus einer Reihe von Gründen. Eine ist historisch, dass sie eine große Anzahl von früheren Forschungen verstehen müssen, die sie gelesen und verstanden haben, um den Standpunkt des Hypothesentests zu überprüfen. Zum anderen wird es auch in der heutigen Zeit von einigen Forschern häufig implizit verwendet, wenn andere Arten statistischer Analysen durchgeführt werden.

Aber wenn ich es unterrichte, lehre ich es im Rahmen des Modellbaus, dass diese Annahmen und Schätzungen Teile von Gebäudemodellen sind. Auf diese Weise ist es relativ einfach, komplexere und theoretisch interessante Modelle zu vergleichen. In der Forschung treten Theorien häufiger gegeneinander an als eine Theorie gegen nichts.

Die Sünden des Hypothesentests liegen nicht in der Mathematik und der richtigen Verwendung dieser Berechnungen. Wo sie in erster Linie liegen, liegt in Übermaß und Fehlinterpretation. Wenn die überwiegende Mehrheit der naiven Forscher ausschließlich die Intervallschätzung ohne Anerkennung einer der Beziehungen zu diesen Dingen verwendet, die wir Hypothesen nennen, könnten wir das eine Sünde nennen.

John
quelle
+1, danke. Gut argumentiert. In Einführungskursen gibt es jedoch keine Modellauswahl im engeren Sinne. Sie könnten andere Kontexte anführen, die für die Einführung von Hypothesentests geeignet sind? Ist es akzeptabel, das Ergebnis eines Tests ohne eine Schätzung der Leistung zu melden?
Washington S. Silva
2
Keine Modellauswahl in Einführungskursen zu haben, ist keine Notwendigkeit. Wenn Sie einen Kurswechsel in Betracht ziehen, ist dies ein guter Ausgangspunkt.
John
20

PPPP

Frank Harrell
quelle
2
Ich würde nicht sagen, dass in einigen Bereichen "The only place ..." und "include ANOVA ..." bedeuten, dass Sie gerade einen enormen Teil der statistischen Toolbox abgedeckt haben.
Fomite
4
Ich denke, für diese Position gibt es viel zu sagen. Angesichts der Tatsache, dass viele Forscher hauptsächlich Informationen über Muster in ihren Daten benötigen, habe ich mich oft gefragt, ob wir einen Großteil der Statistiken vernünftigerweise beiseite legen und einfach Diagramme der Daten verwenden könnten. (Natürlich setzt dies voraus , die Plots geschickt getan würde und einfühlsam, und Hypothesentests wäre nicht so schlimm, wenn wir , dass über sie sagen könnte.)
Gung - Monica Wiedereinstellung
1
Ich bin nicht einverstanden mit dem Zitat "Abwesenheit von Beweisen ist kein Beweis für Abwesenheit". Fehlen von Beweisen für einen Effekt ist nicht Beweis , dass keine Wirkung vorhanden ist , aber es stellt sicher Beweise gegen diesen Effekt vorhanden ist . Die Frage ist eher, wie viele Beweise für die Wirkung eines nicht signifikanten Ergebnisses vorliegen. Das Problem mit großem p-Wert Ich denke , dass in der Normalverteilung Fall große p-Werte sind Beweis für die Hypothese, da sie eine monotone Funktion der Güte der Anpassung sind. Und weil die Normalverteilung so häufig ist, wird dies angezeigt und extrapoliert
Wahrscheinlichkeit ist
5
P
11

Ich denke, es hängt davon ab, über welche Hypothesentests Sie sprechen. Der "klassische" Hypothesentest (Neyman-Pearson) soll fehlerhaft sein, da er nicht in angemessener Weise davon abhängt, was tatsächlich passiert ist, als Sie den Test durchgeführt haben . Es ist stattdessen so konzipiert, dass es "unabhängig" von dem funktioniert, was Sie auf lange Sicht tatsächlich gesehen haben. Die Nichteinhaltung der Auflagen kann jedoch im Einzelfall zu irreführenden Ergebnissen führen. Dies liegt einfach daran, dass sich das Verfahren auf lange Sicht nicht um den Einzelfall kümmert.

Das Testen von Hypothesen kann in den entscheidungstheoretischen Rahmen einbezogen werden, der meines Erachtens ein viel besserer Weg ist, ihn zu verstehen. Sie können das Problem als zwei Entscheidungen wiederholen:

  1. H0
  2. HEIN

Der Entscheidungsrahmen ist viel einfacher zu verstehen, da er die Konzepte von "Was werden Sie tun?" Klar voneinander trennt. und "was ist die Wahrheit?" (über Ihre vorherigen Informationen).

Sie könnten sogar "Entscheidungstheorie" (DT) auf Ihre Frage anwenden. Um das Testen von Hypothesen zu beenden, muss DT jedoch eine alternative Entscheidung treffen. Die Frage ist also: Wenn das Testen von Hypothesen aufgegeben wird, was soll an seine Stelle treten? Ich kann mir keine Antwort auf diese Frage vorstellen. Ich kann mir nur alternative Wege zum Testen von Hypothesen vorstellen.

(HINWEIS: Im Zusammenhang mit Hypothesentests sind die Daten, die Stichprobenverteilung, die Vorverteilung und die Verlustfunktion alle Vorinformationen, da sie vor der Entscheidung eingeholt werden .)

Wahrscheinlichkeitslogik
quelle
Mein Ziel bei dieser Ausgabe war es, Expertenmeinungen zu sammeln, um die Debatte über die Überarbeitung der Kurse für Statistik, die an dem Institut, an dem ich in Brasilien arbeite, stattfinden, zu bereichern. Das Ziel wird erreicht, wobei die Meinungen von @ cardinal, @ Andrew Robinson, @ probabilityislogic und @ JMS ebenfalls gut platziert sind. Es ist klar, dass Hypothesentests (über NP, DT oder Byes) sehr gut vermittelt werden sollten, aber die Herausforderung, geeignete Kurse zu erstellen, ist angesichts der Universalität des Statistikunterrichts ebenso oder komplexer als die Technik selbst. Danke für Ihren Beitrag.
Washington S. Silva
1
Ich liebe die Entscheidungstheorie, wenn sie rigoros mit Bayes'schen Methoden durchgeführt wird, die sinnvolle Verlust- / Nutzenfunktionen beinhalten. Wenn solche Funktionen nicht verfügbar sind, bevorzuge ich die Intervallschätzung.
Frank Harrell
@FrankHarrell - Ich stimme zu, aber ich würde die Intervallschätzung immer noch als eine Art "Entscheidungstheorie" einstufen, bei der die Nutzenfunktion normalerweise auf dem Informationsgehalt basiert (dh Schlussfolgerungen, die mehr von den Informationen verwenden, die wir haben, sind besser) - und dies wird optimiert durch die hintere Verteilung selbst und möglicherweise eine hintere Vorhersage, wenn die Vorhersage von Interesse ist. Die Intervallschätzung bietet eine bequeme Zusammenfassung des Seitenzahns. Gute Konfidenzintervalle (z. B. basierend auf MLE) bieten eine sehr gute Annäherung, wenn die Informationen außerhalb der vorliegenden Daten knapp sind
Wahrscheinlichkeitsanalyse
In der Regel verwenden Sie die Intervallschätzung, wenn Sie keine bestimmte Entscheidung treffen (was wahrscheinlich der Hauptgrund dafür ist, dass Sie keine vernünftige Verlustfunktion haben) und daher viele verschiedene Szenarien berücksichtigen müssen.
Wahrscheinlichkeitslogik
9

Wenn ich ein Hardcore-Frequentist wäre, würde ich Sie daran erinnern, dass Konfidenzintervalle ziemlich regelmäßig nur invertierte Hypothesentests sind, dh wenn das 95% -Intervall einfach eine andere Möglichkeit ist, alle Punkte zu beschreiben, die ein Test mit Ihren Daten am .05 nicht ablehnen würde Niveau. In diesen Situationen ist die Bevorzugung des einen gegenüber dem anderen eher eine Frage der Darlegung als der Methode.

Jetzt ist die Darstellung natürlich wichtig, aber ich denke, das wäre ein ziemlich gutes Argument. Es ist ordentlich und klar, die beiden Ansätze als Wiederholungen derselben Folgerung aus verschiedenen Blickwinkeln zu erklären. (Die Tatsache , dass nicht alle Intervall Schätzer sind Tests invertiert ist dann eine unelegant aber nicht besonders unangenehme Tatsache, pädagogische gesprochen).

Viel ernstere Implikationen ergeben sich aus der oben dargelegten Entscheidung, die Bedingungen für die Beobachtungen festzulegen. Aber selbst im Retreat konnte der Frequentist immer beobachten, dass es viele Situationen gibt (vielleicht nicht die Mehrheit), in denen eine Konditionierung der Beobachtungen unklug oder nicht aufschlussreich wäre. Für diese ist das HT / CI-Setup genau das, was gewünscht wird, und sollte als solches unterrichtet werden.

Konjugatvorstufe
quelle
Formal kann jeder Hypothesentest mit Alpha, der an die Fehlerrate des Typs I gebunden ist, in ein Konfidenzintervall mit Abdeckungsparameter (1-Alpha) umgewandelt werden und umgekehrt, nein? Ich glaube nicht, dass Sie ein Hardcore-Frequentist sein müssen, um zu glauben, dass die Definitionen dies mit sich bringen. :-)
Keith Winstein
3
@Keith Keine Auseinandersetzung mit den Definitionen, aber Sie müssen ein Frequentist sein, um sie als mehr als interessante und vielleicht nützliche Teile der Mathematik zu betrachten. Das heißt, wenn Sie der Meinung sind, dass Stichprobentheoretische Eigenschaften für die statistische Inferenz von entscheidender Bedeutung sind, werden (oder sollten) Sie sich gleichermaßen für Konfidenzintervalle und Hypothesentests interessieren, da sie, wie wir uns einig sind, diese Symmetrie aufweisen. Meins war eine Antwort auf den Gegensatz der Fragesteller zwischen 'guten' CIs und 'schlechten' HTs. Indem ich sie zusammenfasste, wollte ich mich auf die Kontraste konzentrieren, die in anderen Antworten auftauchten.
Conjugateprior
7

Ich habe Neyman Pearson beim Testen von Hypothesen für frühe Statistikstudenten oft versucht, sie in ihrem ursprünglichen Umfeld zu lokalisieren: dem Treffen von Entscheidungen. Dann ist die Infrastruktur mit Fehlern des Typs 1 und 2 ebenso sinnvoll wie die Idee, dass Sie die Nullhypothese akzeptieren könnten .

Wir müssen eine Entscheidung treffen, wir denken, dass das Ergebnis unserer Entscheidung durch die Kenntnis eines Parameters verbessert werden kann, wir haben nur eine Schätzung dieses Parameters. Wir müssen noch eine Entscheidung treffen. Was ist dann die beste Entscheidung im Zusammenhang mit einer Schätzung des Parameters?

Es scheint mir, dass der NP-Hypothesentest in seiner ursprünglichen Einstellung (Entscheidungen angesichts von Unsicherheit zu treffen) durchaus Sinn macht. Siehe z. B. N & P 1933, insbesondere S. 291.

Neyman und Pearson. Zum Problem der effizientesten Prüfung statistischer Hypothesen. Philosophische Transaktionen der Royal Society of London. Serie A, mit mathematischen oder physikalischen Aufsätzen (1933) vol. 231, S. 289-337

Andrew Robinson
quelle
4

Das Testen von Hypothesen ist eine nützliche Methode, um viele Fragen zu klären: Ist die Wirkung einer Behandlung null oder ungleich null? Die Fähigkeit zwischen Aussagen wie diesen und einem statistischen Modell oder Verfahren (einschließlich der Konstruktion eines Intervallschätzers) ist meiner Meinung nach für Praktiker wichtig.

Es ist auch zu erwähnen, dass ein Konfidenzintervall (im herkömmlichen Sinne) von Natur aus nicht weniger anfällig für Sünden ist als das Testen von Hypothesen - wie viele Intro-Statistiken-Studenten kennen die wahre Definition eines Konfidenzintervalls?

Vielleicht ist das Problem nicht das Testen von Hypothesen oder die Intervallschätzung, da es sich um die klassischen Versionen derselben handelt. Die Bayes'sche Formulierung vermeidet diese recht gut.

JMS
quelle
2
@JMS, "Wie viele Intro-Statistiken kennen die tatsächliche Definition eines Konfidenzintervalls?" Oder promovierte Absolventen.
Kardinal
Ziemlich! Übrigens, ich wollte keine Studenten oder Praktizierende mit irgendwelchen Streifen ausgraben. Aber es ist ein bisschen verrückt, die mentale Gymnastik von jemandem zu erwarten, der sich nicht für fortgeschrittene Statistikarbeiten angemeldet hat.
JMS
2
Wie viele Menschen können die wahre Definition von CIs sagen? Und wie viele Leute verwenden sie konsequent mit dieser Definition? Es ist einfach zu schwer, nicht zu glauben, dass "der Parameter wahrscheinlich in diesem Intervall liegt" - auch wenn Sie wissen, dass es sich nicht um ein CI handelt.
Wahrscheinlichkeitslogik
Es ist eine übliche Zeit, die Sie nicht für möglich befunden haben
Washington S. Silva
1
Ich habe versucht auszudrücken, dass Hypothesentests, die nicht mit Schätzungen der Leistung einhergehen, sehr fragwürdig sind und dass Intervallschätzungen diese zusätzliche Komplikationsquelle nicht aufweisen.
Washington S. Silva
2

Der Grund ist die Entscheidungsfindung. Bei den meisten Entscheidungen tun Sie dies entweder oder nicht. Sie können den ganzen Tag lang nach Intervallen suchen, am Ende gibt es einen Moment, in dem Sie entscheiden, ob Sie es tun oder nicht.

Das Testen von Hypothesen fügt sich gut in diese einfache Realität von JA / NEIN ein.

Aksakal
quelle