Heute, im Cross Validated Journal Club (warum warst du nicht da?), Fragte @mbq:
Glauben Sie, wir (moderne Datenwissenschaftler) wissen, was Bedeutung bedeutet? Und in welcher Beziehung steht es zu unserem Vertrauen in unsere Ergebnisse?
@Michelle antwortete, wie einige (einschließlich mir) normalerweise tun:
Ich finde das Konzept der Signifikanz (basierend auf p-Werten) im weiteren Verlauf meiner Karriere immer weniger hilfreich. Ich kann zum Beispiel extrem große Datensätze verwenden, sodass alles statistisch signifikant ist ( ).
Dies ist wahrscheinlich eine dumme Frage, aber ist das Problem nicht die Hypothese, die geprüft wird? Wenn Sie die Nullhypothese "A ist gleich B" testen, wissen Sie, dass die Antwort "Nein" ist. Größere Datenmengen bringen Sie dieser unweigerlich zutreffenden Schlussfolgerung nur näher. Ich glaube, es war Deming, der einmal ein Beispiel mit der Hypothese gab: "Die Anzahl der Haare auf der rechten Seite eines Lammes ist gleich der Anzahl der Haare auf der linken Seite." Na klar ist es nicht.
Eine bessere Hypothese wäre: "A unterscheidet sich nicht mehr als so sehr von B." Oder im Beispiel Lamm: "Die Anzahl der Haare an den Seiten eines Lammes unterscheidet sich nicht um mehr als X%."
Macht das Sinn?
quelle
Antworten:
Was Signifikanztests anbelangt (oder irgendetwas anderes, das im Wesentlichen dasselbe wie Signifikanztests tut ), habe ich lange geglaubt, dass der beste Ansatz in den meisten Situationen wahrscheinlich darin besteht, eine standardisierte Effektgröße mit einem Konfidenzintervall von 95% zu schätzen Effektgröße. Es gibt dort nichts wirklich Neues - mathematisch kann man zwischen ihnen hin- und herschieben - wenn der p-Wert für eine Null <.05 ist, dann liegt 0 außerhalb eines 95% -KI und umgekehrt. Der Vorteil davon ist meiner Meinung nach psychologischer Natur; Das bedeutet, dass wichtige Informationen vorhanden sind, die die Benutzer jedoch nicht sehen können, wenn nur p-Werte gemeldet werden. Es ist zum Beispiel leicht zu erkennen, dass ein Effekt sehr "bedeutend", aber lächerlich klein ist. oder "nicht signifikant", aber nur, weil die Fehlerbalken riesig sind, während der geschätzte Effekt mehr oder weniger dem entspricht, was Sie erwartet haben. Diese können mit Rohwerten und deren CIs gepaart werden.
In vielen Bereichen sind die Rohwerte von sich aus bedeutungsvoll, und ich erkenne, dass sich die Frage stellt, ob es sich noch lohnt, Effektgrößenmaße zu berechnen, da wir bereits Werte wie Mittelwerte und Steigungen haben. Ein Beispiel könnte sich mit verkümmertem Wachstum befassen. Wir wissen, was es für einen 20-jährigen weißen Mann bedeutet, 6 +/- 2 Zoll kürzer (dh 15 +/- 5 cm) zu sein, als sie es sonst tun würden. Warum also 5 ? Ich bin der Meinung, dass es immer noch sinnvoll ist, beides zu melden, und es können Funktionen geschrieben werden, um diese zu berechnen, so dass es nur sehr wenig zusätzliche Arbeit ist, aber ich erkenne, dass die Meinungen variieren werden. Ich behaupte jedenfalls, dass Punktschätzungen mit Konfidenzintervallen die p-Werte als ersten Teil meiner Antwort ersetzen.d=−1.6±.5
Auf der anderen Seite, denke ich, ist eine größere Frage, ob Signifikanztests das sind, was wir wirklich wollen. Ich denke, das eigentliche Problem ist, dass für die meisten Menschen, die Daten analysieren (dh für Praktiker und nicht für Statistiker), Signifikanztests zur Gesamtheit der Datenanalyse werden können. Es scheint mir, dass das Wichtigste darin besteht, prinzipiell darüber nachzudenken, was mit unseren Daten vor sich geht, und das Testen der Signifikanz von Nullhypothesen ist bestenfalls ein sehr kleiner Teil davon. Lassen Sie mich ein imaginäres Beispiel geben (ich gebe zu, dass dies eine Karikatur ist, befürchte aber leider, dass dies etwas plausibel ist):
Ich hoffe, das wird nicht so schlimm. Ich will niemanden verspotten, aber ich denke, dass so etwas gelegentlich passiert. Sollte dieses Szenario eintreten, können wir uns alle darauf einigen, dass es sich um eine schlechte Datenanalyse handelt. Das Problem ist jedoch nicht, dass die Teststatistik oder der p-Wert falsch sind. wir können davon ausgehen, dass die daten in dieser hinsicht richtig behandelt wurden. Ich würde argumentieren, dass das Problem darin besteht, dass Bob sich mit dem beschäftigt, was Cleveland "Rote-Daten-Analyse" nennt. Er scheint zu glauben, dass der einzige Punkt darin besteht, den richtigen p-Wert zu erhalten, und denkt nur sehr wenig über seine Daten nach, außer dass er dieses Ziel verfolgt. Er hätte sogar zu meinem obigen Vorschlag übergehen und eine standardisierte Effektgröße mit einem Konfidenzintervall von 95% angeben können, und es hätte nichts an dem geändert, was ich als größeres Problem betrachte (das habe ich damit gemeint, im Wesentlichen dasselbe zu tun) "auf andere Weise). In diesem speziellen Fall ist die Tatsache, dass die Daten nicht so aussahen, wie er es erwartet hatte (dh nicht normal waren), eine echte Information, die interessant istund sehr wahrscheinlich wichtig, aber diese Informationen werden im Wesentlichen einfach weggeworfen. Bob erkennt dies nicht, da der Schwerpunkt auf Signifikanztests liegt. Meiner Meinung nach ist dies das eigentliche Problem beim Testen der Signifikanz.
Lassen Sie mich einige andere Perspektiven ansprechen, die erwähnt wurden, und ich möchte ganz klar sagen, dass ich niemanden kritisiere.
Für mich ist dies die Kernfrage: Was wir wirklich wollen, ist eine prinzipielle Art, darüber nachzudenken, was passiert ist . Was das in einer bestimmten Situation bedeutet, wird nicht geschnitten und getrocknet. Wie das den Schülern einer Methodenklasse vermittelt wird, ist weder klar noch einfach. Signifikanztests haben viel Trägheit und Tradition. In einer Statistik-Klasse ist klar, was und wie unterrichtet werden muss. Für Studenten und Praktiker wird es möglich, ein konzeptionelles Schema für das Verständnis des Materials und eine Checkliste / ein Flussdiagramm (ich habe einige gesehen!) Für die Durchführung von Analysen zu entwickeln. Signifikanztests können sich natürlich zu einer Datenanalyse entwickeln, ohne dass jemand dumm, faul oder schlecht ist. Das ist das Problem.
quelle
Warum bestehen wir auf irgendeiner Form von Hypothesentest in der Statistik?
In dem wunderbaren Buch Statistik als prinzipielles Argument argumentiert Robert Abelson, dass die statistische Analyse Teil eines prinzipiellen Arguments über das betreffende Thema ist. Er sagt, anstatt als Hypothesen bewertet zu werden, die abgelehnt oder nicht abgelehnt werden (oder sogar akzeptiert werden!?!), Sollten wir sie auf der Grundlage dessen bewerten, was er die MAGIC-Kriterien nennt:
Größe - wie groß ist es? Artikulation - Ist es voller Ausnahmen? Ist das klar? Allgemeinheit - Wie allgemein gilt das? Interesse - Interessiert uns das Ergebnis? Glaubwürdigkeit - Können wir es glauben?
Meine Rezension des Buches auf meinem Blog
quelle
Ihre letzte Frage ist nicht nur sinnvoll: Vernünftige Industriestatistiker prüfen heutzutage nicht auf signifikante Unterschiede, sondern auf signifikante Äquivalenzen, eine Nullhypothese der Form Wobei vom Benutzer festgelegt wird und in der Tat mit dem Begriff "Effektgröße" zusammenhängt. Der gebräuchlichste Äquivalenztest ist der sogenannte TOST . Dennoch sind die TOST Strategie Ziele zu beweisen , dass zwei Mittel und deutlich -close, zum Beispiel ist der Mittelwert für einige Messverfahren undH0:{|μ1−μ2|>ϵ} ϵ μ1 μ2 ϵ μ1 μ2 Für eine andere Messmethode ist es in vielen Situationen sinnvoller, die Äquivalenz zwischen den Beobachtungen zu bewerten, als die Mittelwerte. Zu diesem Zweck könnten wir Hypothesentests für Größen durchführen, bei denen , und diese Hypothesentests beziehen sich auf Toleranzintervalle.Pr(|X1−X2|>ϵ)
quelle
Herkömmliche Hypothesentests geben Aufschluss darüber, ob es statistisch signifikante Hinweise auf das Vorliegen eines Effekts gibt, wohingegen wir häufig wissen möchten, ob Hinweise auf einen praktisch signifikanten Effekt vorliegen.
Es ist sicherlich möglich, Bayesianische "Hypothesentests" mit einer minimalen Effektgröße zu bilden (IIRC gibt es ein Beispiel dafür in David MacKays Buch über "Informationstheorie, Inferenz- und Lernalgorithmen". Ich werde es nachschlagen, wenn ich einen Moment Zeit habe .
Normalitätstests sind ein weiteres gutes Beispiel. Normalerweise wissen wir, dass die Daten nicht wirklich normal verteilt sind. Wir testen nur, ob es Beweise dafür gibt, dass dies keine vernünftige Annäherung ist. Bei der Prüfung auf die Voreingenommenheit einer Münze wissen wir, dass es unwahrscheinlich ist, dass sie vollständig voreingenommen ist, da sie asymmetrisch ist.
quelle
Vieles davon hängt davon ab, welche Frage Sie tatsächlich stellen, wie Sie Ihre Studie gestalten und was Sie unter Gleichheit verstehen.
Ich habe einmal eine interessante kleine Beilage im British Medical Journal gelesen, in der es darum ging, was Menschen bestimmte Phasen als bedeutsam interpretierten. Es stellt sich heraus, dass "immer" bedeuten kann, dass in 91% der Fälle etwas passiert (BMJ VOLUME 333 26 AUGUST 2006 Seite 445). Man könnte also annehmen, dass gleich und äquivalent (oder innerhalb von X% für einen Wert von X) dasselbe bedeuten. Und fragen wir den Computer nach einer einfachen Gleichheit mit R:
Nun könnte ein reiner Mathematiker mit unendlicher Präzision sagen, dass diese 2 Werte nicht gleich sind, aber R sagt, dass sie gleich sind, und für die meisten praktischen Fälle wären sie (wenn Sie mir anbieten würden, (1e + 5 + 1e-50) zu geben ), aber Der Betrag letztendlich auf (1e + 5 - 1e-50). Ich würde das Geld nicht ablehnen, weil es von dem abweicht, was versprochen wurde.$$ $
Wenn unsere alternative Hypothese , schreiben wir häufig die Null als , obwohl die tatsächliche Null technisch , aber wir arbeiten mit der Gleichheit als Null denn wenn wir zeigen können, dass größer als dann wissen wir auch, dass es größer ist als alle Werte kleiner als . Und ist ein zweiseitiger Test nicht wirklich nur zwei einseitige Tests? Würden Sie wirklich sagen, dass aber sich weigern, zu sagen, auf welcher Seite von befindet? Dies ist teilweise der Grund, warum es einen Trend gibt, Konfidenzintervalle anstelle von p-Werten zu verwenden, wenn mein Konfidenzintervall fürH 0 : μ = μ 0 H 0 : μ ≤ μ 0 μ μ 0 μ 0 μ & ne; μ 0 μ 0 μ μ μ 0 μ μ 0 μ 0 μHa:μ>μ0 H0:μ=μ0 H0:μ≤μ0 μ μ0 μ0 μ≠μ0 μ0 μ μ enthält dann , während ich nicht bereit sein, zu glauben , dass ist genau gleich , kann ich nicht mit Sicherheit sagen , welche Seite liegt auf, was bedeutet , dass sie auch für praktische Zwecke gleich sein könnten .μ0 μ μ0 μ0 μ
Vieles davon hängt davon ab, die richtige Frage zu stellen und die richtige Studie für diese Frage zu entwerfen. Wenn Sie am Ende über genügend Daten verfügen, um zu zeigen, dass ein praktisch bedeutungsloser Unterschied statistisch signifikant ist, haben Sie Ressourcen verschwendet, um so viele Daten zu erhalten. Es wäre besser gewesen, zu entscheiden, was ein bedeutungsvoller Unterschied wäre, und die Studie so zu gestalten, dass Sie genug Macht haben, um diesen Unterschied zu erkennen, aber nicht kleiner.
Und wenn wir wirklich Haare spalten wollen, wie definieren wir, welche Teile des Lammes rechts und welche links sind? Wenn wir es durch eine Linie definieren, die per Definition die gleiche Anzahl von Haaren auf jeder Seite hat, dann lautet die Antwort auf die obige Frage "Natürlich ist es das".
quelle
Aus organisatorischer Sicht, sei es eine Regierung mit politischen Optionen oder ein Unternehmen, das ein neues Verfahren / Produkt einführen möchte, kann die Verwendung einer einfachen Kosten-Nutzen-Analyse ebenfalls hilfreich sein. Ich habe in der Vergangenheit argumentiert, dass (unter Missachtung politischer Gründe) angesichts der bekannten Kosten einer neuen Initiative, was die Gewinnschwelle für eine Anzahl von Menschen ist, die von dieser Initiative positiv betroffen sein müssen. Wenn die neue Initiative beispielsweise darauf abzielt, mehr Arbeitslose zur Arbeit zu bringen, und die Initiativkosten
$100,000
, führt sie dann zu einer Verringerung der Arbeitslosentransfers um mindestens$100,000
? Wenn nicht, ist die Wirkung der Initiative praktisch nicht signifikant.Für die gesundheitlichen Ergebnisse gewinnt der Wert eines statistischen Lebens an Bedeutung. Dies ist darauf zurückzuführen, dass die Gesundheitsleistungen während der gesamten Lebensdauer anfallen (und daher die Leistungen auf der Grundlage eines Abzinsungssatzes im Wert nach unten angepasst werden ). Anstelle der statistischen Signifikanz werden also Argumente dafür angeführt, wie der Wert eines statistischen Lebens geschätzt werden soll und welcher Abzinsungssatz angewendet werden soll.
quelle