Warum weiterhin Hypothesentests (mit all ihren schwierigen Konzepten und die zu den statistischsten Sünden zählen) für Probleme unterrichten und anwenden, bei denen es einen Intervallschätzer gibt (Vertrauen, Bootstrap, Glaubwürdigkeit oder was auch immer)? Was ist die beste Erklärung (falls vorhanden) für die Schüler? Nur tradition? Die Ansichten werden sehr willkommen sein.
hypothesis-testing
confidence-interval
teaching
Washington S. Silva
quelle
quelle
Antworten:
Dies ist meine persönliche Meinung, daher bin ich mir nicht sicher, ob dies als Antwort geeignet ist.
Warum sollten wir Hypothesentests unterrichten?
Kurz gesagt, ein sehr wichtiger Grund ist, dass höchstwahrscheinlich in der Zeit, die Sie zum Lesen dieses Satzes benötigen, Hunderte, wenn nicht Tausende (oder Millionen) Hypothesentests in einem Radius von 3 m um Ihren Sitzplatz durchgeführt wurden.
Ihr Mobiltelefon verwendet definitiv einen Likelihood-Ratio-Test, um zu entscheiden, ob es sich in Reichweite einer Basisstation befindet oder nicht. Die WLAN-Hardware Ihres Laptops macht dasselbe bei der Kommunikation mit Ihrem Router.
Die Mikrowelle, die Sie zum automatischen Aufwärmen dieses zwei Tage alten Stücks Pizza verwendet haben, verwendete einen Hypothesentest, um zu entscheiden, wann Ihre Pizza heiß genug war.
Das Traktionskontrollsystem Ihres Autos hat ausgelöst, als Sie auf einer vereisten Straße zu viel Gas gegeben haben, oder das Reifendruck-Warnsystem hat Sie darüber informiert, dass der Reifen auf der Beifahrerseite ungewöhnlich niedrig war und die Scheinwerfer gegen 5 Uhr automatisch aufleuchteten: 19 Uhr als die Abenddämmerung hereinbrach.
Ihr iPad rendert diese Seite im Querformat, basierend auf (lauten) Beschleunigungsmessern.
Ihr Kreditkartenunternehmen hat Ihre Karte gesperrt, als "Sie" einen Flachbildfernseher bei einem Best Buy in Texas und einen Diamantring im Wert von 2000 USD bei Zales in einem Einkaufszentrum im US-Bundesstaat Washington innerhalb von ein paar Stunden nach dem Kauf von Mittagessen, Benzin und einem Film gekauft haben in der Nähe Ihres Hauses in den Vororten von Pittsburgh.
Die Hunderttausende von Bits, die gesendet wurden, um diese Webseite in Ihrem Browser zu rendern, wurden einzeln einem Hypothesentest unterzogen, um festzustellen, ob es sich höchstwahrscheinlich um eine 0 oder eine 1 handelte (zusätzlich zu einer erstaunlichen Fehlerkorrektur).
Schauen Sie sich zu Ihrer Rechten nur ein wenig diese "verwandten" Themen an.
All diese Dinge "geschahen" aufgrund von Hypothesentests . Für viele dieser Dinge könnte eine Intervallschätzung einiger Parameter berechnet werden. Vor allem für automatisierte industrielle Prozesse ist jedoch die Verwendung und das Verständnis von Hypothesentests von entscheidender Bedeutung.
Auf einer theoretischeren statistischen Ebene ergibt sich das wichtige Konzept der statistischen Potenz ganz natürlich aus einem Rahmen für Entscheidungstheorien / Hypothesentests. Außerdem glaube ich, dass "sogar" ein reiner Mathematiker die Schönheit und Einfachheit des Neyman-Pearson-Lemmas und seines Beweises schätzen kann.
Dies soll nicht heißen, dass das Testen von Hypothesen gut gelehrt oder verstanden wird. Im Großen und Ganzen ist es nicht. Und obwohl ich - insbesondere in den medizinischen Wissenschaften - zustimmen würde, dass das Berichten von Intervallschätzungen zusammen mit Effektgrößen und Begriffen von praktischer vs. statistischer Signifikanz praktisch allen formalen Hypothesentests vorzuziehen ist, bedeutet dies nicht, dass Hypothesentests und die damit verbundenen Tests durchgeführt werden Konzepte sind an sich nicht wichtig und interessant.
quelle
Ich unterrichte Hypothesentests aus einer Reihe von Gründen. Eine ist historisch, dass sie eine große Anzahl von früheren Forschungen verstehen müssen, die sie gelesen und verstanden haben, um den Standpunkt des Hypothesentests zu überprüfen. Zum anderen wird es auch in der heutigen Zeit von einigen Forschern häufig implizit verwendet, wenn andere Arten statistischer Analysen durchgeführt werden.
Aber wenn ich es unterrichte, lehre ich es im Rahmen des Modellbaus, dass diese Annahmen und Schätzungen Teile von Gebäudemodellen sind. Auf diese Weise ist es relativ einfach, komplexere und theoretisch interessante Modelle zu vergleichen. In der Forschung treten Theorien häufiger gegeneinander an als eine Theorie gegen nichts.
Die Sünden des Hypothesentests liegen nicht in der Mathematik und der richtigen Verwendung dieser Berechnungen. Wo sie in erster Linie liegen, liegt in Übermaß und Fehlinterpretation. Wenn die überwiegende Mehrheit der naiven Forscher ausschließlich die Intervallschätzung ohne Anerkennung einer der Beziehungen zu diesen Dingen verwendet, die wir Hypothesen nennen, könnten wir das eine Sünde nennen.
quelle
quelle
Ich denke, es hängt davon ab, über welche Hypothesentests Sie sprechen. Der "klassische" Hypothesentest (Neyman-Pearson) soll fehlerhaft sein, da er nicht in angemessener Weise davon abhängt, was tatsächlich passiert ist, als Sie den Test durchgeführt haben . Es ist stattdessen so konzipiert, dass es "unabhängig" von dem funktioniert, was Sie auf lange Sicht tatsächlich gesehen haben. Die Nichteinhaltung der Auflagen kann jedoch im Einzelfall zu irreführenden Ergebnissen führen. Dies liegt einfach daran, dass sich das Verfahren auf lange Sicht nicht um den Einzelfall kümmert.
Das Testen von Hypothesen kann in den entscheidungstheoretischen Rahmen einbezogen werden, der meines Erachtens ein viel besserer Weg ist, ihn zu verstehen. Sie können das Problem als zwei Entscheidungen wiederholen:
Der Entscheidungsrahmen ist viel einfacher zu verstehen, da er die Konzepte von "Was werden Sie tun?" Klar voneinander trennt. und "was ist die Wahrheit?" (über Ihre vorherigen Informationen).
Sie könnten sogar "Entscheidungstheorie" (DT) auf Ihre Frage anwenden. Um das Testen von Hypothesen zu beenden, muss DT jedoch eine alternative Entscheidung treffen. Die Frage ist also: Wenn das Testen von Hypothesen aufgegeben wird, was soll an seine Stelle treten? Ich kann mir keine Antwort auf diese Frage vorstellen. Ich kann mir nur alternative Wege zum Testen von Hypothesen vorstellen.
(HINWEIS: Im Zusammenhang mit Hypothesentests sind die Daten, die Stichprobenverteilung, die Vorverteilung und die Verlustfunktion alle Vorinformationen, da sie vor der Entscheidung eingeholt werden .)
quelle
Wenn ich ein Hardcore-Frequentist wäre, würde ich Sie daran erinnern, dass Konfidenzintervalle ziemlich regelmäßig nur invertierte Hypothesentests sind, dh wenn das 95% -Intervall einfach eine andere Möglichkeit ist, alle Punkte zu beschreiben, die ein Test mit Ihren Daten am .05 nicht ablehnen würde Niveau. In diesen Situationen ist die Bevorzugung des einen gegenüber dem anderen eher eine Frage der Darlegung als der Methode.
Jetzt ist die Darstellung natürlich wichtig, aber ich denke, das wäre ein ziemlich gutes Argument. Es ist ordentlich und klar, die beiden Ansätze als Wiederholungen derselben Folgerung aus verschiedenen Blickwinkeln zu erklären. (Die Tatsache , dass nicht alle Intervall Schätzer sind Tests invertiert ist dann eine unelegant aber nicht besonders unangenehme Tatsache, pädagogische gesprochen).
Viel ernstere Implikationen ergeben sich aus der oben dargelegten Entscheidung, die Bedingungen für die Beobachtungen festzulegen. Aber selbst im Retreat konnte der Frequentist immer beobachten, dass es viele Situationen gibt (vielleicht nicht die Mehrheit), in denen eine Konditionierung der Beobachtungen unklug oder nicht aufschlussreich wäre. Für diese ist das HT / CI-Setup genau das, was gewünscht wird, und sollte als solches unterrichtet werden.
quelle
Ich habe Neyman Pearson beim Testen von Hypothesen für frühe Statistikstudenten oft versucht, sie in ihrem ursprünglichen Umfeld zu lokalisieren: dem Treffen von Entscheidungen. Dann ist die Infrastruktur mit Fehlern des Typs 1 und 2 ebenso sinnvoll wie die Idee, dass Sie die Nullhypothese akzeptieren könnten .
Wir müssen eine Entscheidung treffen, wir denken, dass das Ergebnis unserer Entscheidung durch die Kenntnis eines Parameters verbessert werden kann, wir haben nur eine Schätzung dieses Parameters. Wir müssen noch eine Entscheidung treffen. Was ist dann die beste Entscheidung im Zusammenhang mit einer Schätzung des Parameters?
Es scheint mir, dass der NP-Hypothesentest in seiner ursprünglichen Einstellung (Entscheidungen angesichts von Unsicherheit zu treffen) durchaus Sinn macht. Siehe z. B. N & P 1933, insbesondere S. 291.
Neyman und Pearson. Zum Problem der effizientesten Prüfung statistischer Hypothesen. Philosophische Transaktionen der Royal Society of London. Serie A, mit mathematischen oder physikalischen Aufsätzen (1933) vol. 231, S. 289-337
quelle
Das Testen von Hypothesen ist eine nützliche Methode, um viele Fragen zu klären: Ist die Wirkung einer Behandlung null oder ungleich null? Die Fähigkeit zwischen Aussagen wie diesen und einem statistischen Modell oder Verfahren (einschließlich der Konstruktion eines Intervallschätzers) ist meiner Meinung nach für Praktiker wichtig.
Es ist auch zu erwähnen, dass ein Konfidenzintervall (im herkömmlichen Sinne) von Natur aus nicht weniger anfällig für Sünden ist als das Testen von Hypothesen - wie viele Intro-Statistiken-Studenten kennen die wahre Definition eines Konfidenzintervalls?
Vielleicht ist das Problem nicht das Testen von Hypothesen oder die Intervallschätzung, da es sich um die klassischen Versionen derselben handelt. Die Bayes'sche Formulierung vermeidet diese recht gut.
quelle
Der Grund ist die Entscheidungsfindung. Bei den meisten Entscheidungen tun Sie dies entweder oder nicht. Sie können den ganzen Tag lang nach Intervallen suchen, am Ende gibt es einen Moment, in dem Sie entscheiden, ob Sie es tun oder nicht.
Das Testen von Hypothesen fügt sich gut in diese einfache Realität von JA / NEIN ein.
quelle