Wie würden Sie Personen ohne statistischen Hintergrund die statistische Signifikanz erklären?

11

Hintergrund:
Ich musste eine Datenanalyse für einen Mandanten (eine Art Anwalt) durchführen, der ein absoluter Anfänger in der Statistik war. Er fragte mich, was der Begriff "statistische Signifikanz" bedeutet und ich versuchte wirklich, ihn zu erklären ... aber da ich nicht gut darin bin, Dinge zu erklären, habe ich versagt;)

statistical-significance inference communication Daniel Ryback
quelle

15

Unterschiede entstehen durch Zufall.

Wenn wir glauben, dass etwas statistisch signifikant ist, glauben wir, dass der Unterschied größer ist, als dies vernünftigerweise als zufälliges Ereignis erklärt werden kann.

Charles
quelle

Ich mag die Verwendung von Zufall, denke aber, dass dies in Bezug auf die Art und Weise, wie Signifikanztests häufig verwendet werden, sehr irreführend ist. Zum Beispiel bedeutet eine große Stichprobengröße, dass Sie aufgrund von "zufälligen" Grundlinienunterschieden fast immer eine Signifikanz erhalten. Es ist allgemein anerkannt, dass diese Ergebnisse als "statistisch signifikant" bezeichnet werden können, obwohl sie vernünftigerweise zufällig erklärt werden.

Flasche

@Flask: Inwiefern sind diese Grundlinienunterschiede zufällig?

Scortchi - Monica wieder einsetzen

@Scortchi Wenn eine Randomisierung durchgeführt wurde, können Unterschiede zufällig sein. Siehe hier . Selbst wenn es durchgeführt wurde, kann etwas später zu Verzerrungen führen. Siehe hier . Wenn keine Randomisierung durchgeführt wurde, kann dies auf Zufall oder Vorurteile der Ermittler oder auf eine Reihe von Gründen zurückzuführen sein.

Flasche

1

Nützliche Antwort, außer dass sie nur für Tests von Unterschieden gilt.

Rolando2

2

+1 Dies ist eine hervorragende Antwort, da sie das Arcana von p-Werten, Wahrscheinlichkeiten, Verteilungen, Nullhypothesen usw. vermeidet und auf eine Weise auf den Punkt kommt, die für die meisten Anwälte anwendbar ist. Dass es möglicherweise nicht umfassend ist, steht außer Frage: Die Details und Variationen können später behandelt werden. Wenn ich darauf drängen würde, dies zu verbessern, würde ich hauptsächlich betonen, dass Überzeugungen über statistische Signifikanz auf Daten beruhen : Dies würde diese Beschreibung beispielsweise von theologischen Überzeugungen unterscheiden.

whuber

3

HINWEIS: Was ich in dieser Antwort hervorheben möchte, ist, dass statistische Signifikanz ein nützliches Werkzeug ist, sich aber auch von der Wahrheit unterscheidet.

Nimm eine Packung mit 52 Karten. Wenn mein Klient unschuldig ist, ist es ein normales Kartenspiel, 13 Herzen. Wenn mein Klient lügt, ist es eine feste Packung und alle 52 Karten sind Herzen.

Ich ziehe die erste Karte und es ist ein Herz. Aha, schuldig! Nun, offensichtlich sagt uns der gesunde Menschenverstand, dass dies nicht der Fall ist: Es gab eine von vier Chancen, dass dies passieren würde, selbst wenn er unschuldig wäre. Wir haben keine statistische Signifikanz nur eine Karte betrachten.

Also ziehen wir eine zweite Karte. Ein anderes Herz. Hhhmmm ... dann definitiv schuldig! Nun, es waren noch 12 Herzen in diesen verbleibenden 51 Karten, also nicht unmöglich. Die Mathematik (13/52 * 12/51 = 0.0588) sagt uns, dass dies in etwa 6% der Fälle geschieht, selbst wenn es unschuldig ist. Für die meisten Wissenschaftler würde dies immer noch nicht zählen.

Ziehe eine dritte Karte, ein anderes Herz! Drei in einer Reihe. Die Wahrscheinlichkeit, dass dies geschieht, ist (13/52 * 12/51 * 11/50 = 0,01294), so dass dies in etwas mehr als 1% der Fälle zufällig geschehen kann.

In weiten Teilen der Wissenschaft werden 5% als Grenzwert verwendet. Wenn Sie also keine anderen Beweise als diese drei Karten haben, haben Sie ein statistisch signifikantes Ergebnis, dass er schuldig ist.

Der wichtige Punkt ist, dass je mehr Karten Sie betrachten dürfen, desto besser ist Ihr Vertrauen in seine Schuld. Dies ist eine andere Art zu sagen, je höher die statistische Bedeutung wird.

HINWEIS: Sie haben nie einen Beweis seiner Schuld , wenn Sie auf 14 Karten schauen dürfen. Mit einem normalen Kartenspiel ist es theoretisch möglich, 13 Herzen hintereinander zu ziehen, aber 14 sind unmöglich. [Abgesehen von Pedanten: Nehmen wir an, die Zahlen auf den Karten sind nicht sichtbar. Alle Karten sind eine von vier möglichen Farben, und das ist es.]

HINWEIS: Sie haben einen Beweis für seine Unschuld, sobald Sie eine andere Karte als ein Herz ziehen. Dies liegt daran, dass es nur zwei mögliche Packungen gab: normale oder alle Herzen. Das wirkliche Leben ist komplizierter und die Mathematik wird auch komplizierter.

Übrigens, wenn Ihr Kunde kein Kartenspieler ist, versuchen Sie es mit Monopoly: Jeder würfelt manchmal eine Doppel-Sechs; aber wenn jemand jedes Mal Double-Six würfelt, wenn Sie misstrauisch werden. Mit Statistiken können wir nur genau angeben, wie misstrauisch wir sein sollten.

Darren Cook
quelle

3

Mein eigener Rat ist, nicht über folgende Dinge zu sprechen:

p-Werte,
Teststatistik,
die Wahrscheinlichkeit, dass Dinge nur zufällig passieren.

Seien Sie nicht zu hart mit sich selbst über den Anwalt. Dies ist eine gebildete Person, die mindestens ein Semester in einer Statistikklasse der Universität verbracht hat und nicht ein bisschen davon bei ihm hängen geblieben ist. Es ist die gleiche Geschichte für praktisch jeden anderen Nichtwissenschaftler, mit dem ich gearbeitet habe - die statistische Signifikanz bleibt nicht erhalten . Es ist einfach ein zu unnatürliches Konzept.

Ich ermutige Sie, die statistische Signifikanz anhand von Beweisen zu erklären . Klassische Statistiker haben Beweise auf einer Skala von 0 bis 1 codiert, wobei kleinere Werte mehr Beweise darstellen und bei 0,05 die Linie konventionell gezogen wird.

Ben Ogorek
quelle

imo die idee von sig. kann bei Nichtwissenschaftlern bleiben; Was oft als unnatürlich angesehen wird, ist die technische Definition, wenn die Leute so weit kommen. Bei den Beweisen geht es natürlich um Beweise: Die Frage ist, wie man statistisch mit Beweisen umgeht, um zu einer Entscheidung über Sig zu gelangen.

Rolando2

Ich mag Ihren Optimismus, aber ich bin nicht der Meinung, dass es für die typische Person offensichtlich ist, dass es bei der statistischen Signifikanz nur um Beweise geht. Ich denke, sie sehen es als eine Art Schalter beim Umdrehen, wenn Ihr Datensatz groß genug wird und alle berechneten Zahlen jetzt irgendwie "gültig" sind. Sie behaupten, dass es für den Laien wichtig ist, zu wissen, wie die Beweise quantifiziert werden. Machen Sie sich also bereit, über Wahrscheinlichkeiten zu sprechen, die unter einer Hypothese berechnet wurden, von der Sie wahrscheinlich nicht glaubten, dass sie überhaupt wahr ist.

Ben Ogorek

Ah, aber wenn Sie über Beweise sprechen, betreten Sie das Bayes'sche Land.

Arthur B.

1

Ich glaube nicht, dass Bayesianer "Beweise" (das Konzept) besitzen, obwohl sie es sicherlich formalisiert haben. Ich würde argumentieren, dass ein kleiner p-Wert ein Beweis für etwas ist.

Ben Ogorek

1

"Statistisch signifikant" bedeutet, dass etwas zufällig passiert sein könnte, aber es ist unwahrscheinlich. Stattdessen ist es viel wahrscheinlicher, dass es irgendeine Ursache gibt. Sie sollten dies anhand eines für Ihren Kunden relevanten Beispiels konkreter machen, da diese Erklärung so abstrakt ist.

Wenn zum Beispiel die Anwältin Anne im Durchschnitt viel mehr Fälle als Bill gewonnen hat, könnte dies nur zufällig geschehen sein. Wenn Anne jedoch statistisch signifikant mehr Fälle gewonnen hat, ist es viel wahrscheinlicher, dass es etwas gibt, das erklären könnte, warum Anne mehr Fälle als Bill gewonnen hat. Wir kennen die Ursache nicht. Vielleicht ist Anne eine bessere Anwältin oder Bill wählt absichtlich Fälle aus, die schwieriger sind.

Jonathan
quelle

0

Halten Sie es einfach und prägnant!

Ein p-Wert ist definiert als die Wahrscheinlichkeit, Ergebnisse zu erhalten, die so oder so extrem sind wie die, die wir unter der Annahme beobachtet haben, dass die Null wahr ist. Wenn der p-Wert klein genug ist, ist die Null wahrscheinlich nicht wahr. Wir wählen willkürlich einen Grenzwert für das, was wir als "klein genug" (Alpha) betrachten, und für alle p-Werte, die unter Alpha fallen, lehnen wir die Null ab.

So erkläre ich es meiner Intro-Statistik-Klasse.

TrynnaDoStat
quelle

Aber was ist, wenn Sie keine Möglichkeit haben, eine plausible Nullhypothese zu wählen (dh keine zwei Personengruppen sind jemals genau gleich, aber Sie haben auch nicht genügend Informationen, um etwas Besseres als mean1 = mean2 vorherzusagen)? Das Erklären der statistischen Signifikanz ohne Erwähnung der Einschränkungen kann schaden.

Flasche

0

Ich werde es versuchen.

Zuerst berechnen Sie einen p-Wert basierend auf den Durchschnittsdaten und der Variabilität der Daten. Je variabler, desto weniger wahrscheinlich ist es, einen kleinen p-Wert zu erhalten. Wenn Sie beispielsweise zwei Gruppen vergleichen, ist der p-Wert umso kleiner, je größer die Differenz zwischen den Durchschnittswerten ist.

Auch die Variabilität der Daten kann durch mehr Daten etwas aufgehoben werden. Abbildung von zwei Datensätzen mit demselben Unterschied zwischen zwei Durchschnittswerten und derselben Variabilität. In diesem Fall hat der Satz mit größerer Stichprobengröße einen kleineren p-Wert.

Der Testteil sieht nur, ob der p-Wert niedriger als eine Zahl ist. Normalerweise verwenden die Leute .05, aber dies ist eine willkürliche soziale Gewohnheit. Viele Leute denken, dass es keinen Sinn macht, eine beliebige Zahl zu verwenden, aber es ist aus historischen Gründen sehr verbreitet.

Denken Sie auch daran, dass nur weil Ihr Signifikanztest besagt, dass es einen Unterschied zwischen zwei Gruppen gibt, Sie nicht wissen, warum es diesen Unterschied gibt. Wenn der Test jedoch besagt, dass es keinen signifikanten Unterschied gibt, kann dies nur daran liegen, dass Ihre Variabilität zu groß war und Sie nicht über genügend Daten verfügten, um einen niedrigen p-Wert zu erhalten. Dies bedeutet nicht, dass es keinen tatsächlichen Unterschied gibt.

Bearbeiten:

Zusammenfassend bedeutet ein niedrigerer p-Wert mehr Beweise gegen die Vorhersage:

Unterschied zum vorhergesagten Ergebnis -> Down p-Wert

Weitere Daten -> Down p-Wert

Mehr Variabilität -> Up p-Wert

Ein niedrigerer p-Wert bedeutet mehr Beweise dafür, dass die Vorhersage falsch ist. Jede Vorhersage in der Geschichte wurde bis zu einer Dezimalstelle als falsch angezeigt.

Flasche
quelle

0

Die statistische Signifikanz ist ein Konzept, das verwendet wird, um die Annahme oder Ablehnung einer bestimmten Hypothese zu rechtfertigen. Anhand eines Datensatzes kann ein Analyst Statistiken berechnen und die Größe verschiedener Beziehungen zwischen verschiedenen Variablen bestimmen.

Die Aufgabe der Statistik besteht darin, festzustellen, ob die Daten genügend Beweise enthalten, um zu dem Schluss zu gelangen, dass die berechneten Statistiken oder Beziehungen, die zwischen Variablen beobachtet werden, als wahre Aussagen interpretiert werden können oder ob die in Ihren Beispieldaten beobachteten Ergebnisse einfach zufällig sind. Dies erfolgt durch Bestimmen einer Stichprobenstatistik, die bestimmte Merkmale aufweisen würde, wenn die Nullhypothese wahr ist, nicht jedoch, wenn die Nullhypothese falsch ist. Je mehr die relevante Stichprobenstatistik die unter der Nullhypothese erwarteten Merkmale aufweist, desto stärker ist der statistische Nachweis, dass die Nullhypothese korrekt ist. Je weniger die Stichprobenstatistik die unter der Nullhypothese erwarteten Merkmale aufweist, desto schwächer ist der statistische Nachweis, dass die Nullhypothese korrekt ist.

Der Betrag, in dem die Stichprobenstatistik die unter der Null erwarteten Merkmale aufweist, ist eine Frage des Grades. Um jedoch zu dem Schluss zu kommen, dass die Nullhypothese akzeptiert oder abgelehnt wird, muss ein willkürlicher Grenzwert festgelegt werden. Als solches wird ein Grenzwert gewählt. Wenn die Stichprobenstatistik innerhalb oder auf einer Seite des Grenzwerts liegt, wird gesagt, dass sie mit den unter der Nullhypothese erwarteten Merkmalen übereinstimmt, und daher kann das Ergebnis für den gegebenen Grenzwert als statistisch signifikant angesehen werden (z. B. bei 5% Alpha) Niveau). Wenn die relevante Stichprobenstatistik auf die andere Seite des Grenzwerts fällt, wird gesagt, dass sie nicht mit den unter der Nullhypothese erwarteten Merkmalen übereinstimmt, und daher wird das Ergebnis für den gegebenen Grenzwert nicht als statistisch signifikant angesehen.

tjnel
quelle

Aber wie oft wird wirklich eine bestimmte Population im Voraus bestimmt, für die die Ergebnisse gelten sollen. Normalerweise wird argumentiert, das Ergebnis über die exakte untersuchte Population hinaus anzuwenden, was eine einzigartige Stichprobe war. Inwieweit diese Einzigartigkeit der Subjekte / was auch immer wichtig ist, ist unter vielen Umständen unbekannt. Eine Ausnahme könnte die Qualitätskontrolle bei der Herstellung sein, aber Signifikanztests werden viel häufiger eingesetzt. Ich möchte nur die Einschränkungen des Verfahrens hervorheben, die in meiner eigenen Ausbildung weggelassen wurden.

Flasche

@Flask das ist ein guter Punkt. Ich habe meine Antwort bearbeitet, um sie allgemeiner zu gestalten.

tjnel

Wie würden Sie Personen ohne statistischen Hintergrund die statistische Signifikanz erklären?

Antworten: