Was ist das am schwersten zu erfassende statistische Konzept?

32

Dies ist eine ähnliche Frage wie die hier , aber ich denke, sie ist so unterschiedlich, dass es sich lohnt, sie zu stellen.

Ich dachte, ich würde als Vorspeise setzen, was meiner Meinung nach eines der am schwersten zu fassenden ist.

Meins ist der Unterschied zwischen Wahrscheinlichkeit und Häufigkeit . Der eine befindet sich auf der Ebene der "Erkenntnis der Realität" (Wahrscheinlichkeit), der andere auf der Ebene der "Realität selbst" (Häufigkeit). Das verwirrt mich fast immer, wenn ich zu viel darüber nachdenke.

Edwin Jaynes Prägte einen Begriff, der "Irrtum der Gedankenprojektion" genannt wird, um zu beschreiben, wie man diese Dinge durcheinander bringt.

Irgendwelche Gedanken zu anderen schwierigen Konzepten?

Wahrscheinlichkeitslogik
quelle
(Ich weiß nicht genug, um dies als Antwort zu geben und füge daher einen Kommentar hinzu.) Ich fand es immer seltsam, dass PI in statistischen Gleichungen auftaucht. Ich meine - was hat PI mit Statistik zu tun? :)
Wiedereinsetzung von Monica - Goodbye SE
2
Ich würde zustimmen (in meinem Erstaunen) - ich denke, dass in vielen mathematischen Analysen auftaucht. Nur eine Notiz, mit der Sie π mit Latex-Befehlen als \ pi in $ -Zeichen schreiben können . Ich benutze die Wiki-Seite, um die Syntax en.wikibooks.org/wiki/LaTeX/Mathematics zu erhalten . Ein weiterer Trick besteht darin, mit der rechten Maustaste auf eine auf dieser Site angezeigte Gleichung zu klicken und "show source" auszuwählen, um die verwendeten Befehle abzurufen. ππ\pi
Wahrscheinlichkeitslogik
@Wiki Wenn Sie akzeptieren, dass auftritt , wenn Sie die Länge eines geraden Linienstücks bis zur Länge eines Kreisstücks messen, verstehe ich nicht, warum es nicht auftaucht, wenn Sie die Wahrscheinlichkeit eines Sturzes messen auf ein Segment, um die Wahrscheinlichkeit zu messen, in einem Stück Kreis herunterzufallen? π
Robin Girard
@Wiki Bei trigonometrischen Funktionen (Sinus, Cosinus, Tangens usw.) besteht die Gefahr, dass auftaucht. Und denken Sie daran, dass Sie immer dann, wenn Sie eine Funktion ableiten, tatsächlich eine Tangente finden. Überraschend ist, dass π nicht häufiger auftritt . ππ
Carlos Accioly
@Carlos Ich vermute, dass die Prävalenz von hauptsächlich auf die Verwendung der Metrik 2 zurückzuführen ist , was zu n-Sphären führt. In der gleichen Weise würde ich erwarten, dass es e ist, dessen Prävalenz auf Analyse zurückzuführen ist. 2π2e
29.

Antworten:

31

Aus irgendeinem Grund haben die Leute Schwierigkeiten zu verstehen, was ein p-Wert wirklich ist.

shabbychef
quelle
3
@shabbychef: Die meisten Leute begreifen es auf die schlechteste Art und Weise, dh mit der Wahrscheinlichkeit, dass Typ-I-Fehler auftreten.
Suncoolsu
2
Ich denke, das hängt hauptsächlich damit zusammen, wie p-Werte in Klassen erklärt werden (dh nur durch eine kurze Definition und ohne Angabe, was p-Werte NICHT sind)
nico
Ich denke, das hängt hauptsächlich damit zusammen, wie es eingeführt wird. Für mich war es ein "Add-On" zum klassischen Hypothesentest - es scheint also nur eine andere Möglichkeit zu sein, einen Hypothesentest durchzuführen. Das andere Problem ist , dass es in der Regel nur in Bezug auf eine Normalverteilung gelehrt wird, wo alles „funktioniert schön“ (zB p-Wert ist ein Maß für Beweise in einem normale mittleren Prüfung). Die Verallgemeinerung des p-Wertes ist nicht einfach, da es keine spezifischen Prinzipien gibt, die die Verallgemeinerung leiten könnten (z. B. gibt es keine allgemeine Übereinstimmung darüber, wie sich ein p-Wert mit der Stichprobengröße und mehreren Vergleichen ändern sollte)
Wahrscheinlichkeitsanalyse
@shabbychef +1 obwohl Schüler oft Schwierigkeiten mit p-Werten haben (ungefähr, weil das Konzept beim Testen etwas subtiler ist als ein binärer Entscheidungsprozess und weil es nicht einfach ist, eine Funktion zu invertieren). Wenn Sie "aus irgendeinem Grund" sagen, ist es für Sie unklar, warum Menschen Schwierigkeiten haben? PS: Wenn ich könnte, würde ich versuchen, auf dieser Site Statistiken über die Beziehung zwischen "eine Top-Antwort sein" und "über p-Wert sprechen" zu erstellen :). Ich frage mich auch, ob das am schwersten zu erfassende statistische Konzept die höchste Punktzahl haben kann (wenn es schwer zu erfassen ist ... :))
Robin Girard
1
@eduardo - ja, ein ausreichend kleiner p-Wert reicht aus, um die Nullhypothese in Frage zu stellen. Er wird jedoch isoliert von einer Alternative berechnet . Wenn Sie nur p-Werte verwenden, können Sie niemals formal "ablehnen" , da keine Alternative angegeben wurde . Wenn Sie H 0 förmlich ablehnen , müssen Sie auch die Berechnungen ablehnen, die auf der Annahme von H 0 als wahr beruhten. Dies bedeutet, dass Sie die Berechnung des p-Werts ablehnen müssen, der unter dieser Annahme abgeleitet wurde (dies beeinträchtigt Ihren Kopf) , aber es ist der einzige Weg, konsequent zu argumentierenH0H0H0 ).
Wahrscheinlichkeitsrechnung
23

Ähnlich wie bei der Antwort von Shabbychef ist es schwierig, die Bedeutung eines Konfidenzintervalls in der Statistik der Frequentisten zu verstehen. Ich denke, das größte Hindernis ist, dass ein Konfidenzintervall die Frage, die wir beantworten möchten, nicht beantwortet. Wir möchten wissen, "wie hoch ist die Wahrscheinlichkeit, dass der wahre Wert in diesem bestimmten Intervall liegt?" Stattdessen können wir nur antworten: "Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Intervall, das auf diese Weise erstellt wurde, den wahren Parameter enthält?" Letzteres ist offensichtlich weniger befriedigend.

Charlie
quelle
1
Je mehr ich über Konfidenzintervalle nachdenke, desto schwerer fällt es mir zu überlegen, welche Art von Frage sie auf einer konzeptionellen Ebene beantworten können, die nicht beantwortet werden kann, indem man fragt, "wie hoch die Wahrscheinlichkeit ist, dass ein wahrer Wert in einem Intervall liegt, wenn man sich in einem bestimmten Zustand befindet Wissen". Wenn ich fragen würde "Wie hoch ist die Wahrscheinlichkeit (abhängig von meinen Informationen), dass das durchschnittliche Einkommen im Jahr 2010 zwischen 10.000 und 50.000 lag?" Ich denke nicht, dass die Theorie der Konfidenzintervalle eine Antwort auf diese Frage geben kann.
Wahrscheinlichkeitsrechnung
21

Was bedeutet "Freiheitsgrade"? Wie wäre es mit df, die keine ganzen Zahlen sind?

user2954
quelle
13

Bedingte Wahrscheinlichkeit führt wahrscheinlich zu den meisten Fehlern in der Alltagserfahrung. Natürlich gibt es viele schwierigere Konzepte, aber die Leute müssen sich normalerweise keine Sorgen um sie machen - dieses, von dem sie nicht loskommen können, ist eine Quelle für zügelloses Missgeschick.

dmk38
quelle
+1; Könnten Sie ein oder zwei Beispiele hinzufügen, Favoriten oder aktuelle?
Denis
1
Für den Anfang: P (Sie haben die Krankheit | Test ist positiv)! = P (Test ist positiv | Sie haben die Krankheit).
xmjx
9

Ich denke, dass nur sehr wenige Wissenschaftler diesen grundlegenden Punkt verstehen: Es ist nur möglich, die Ergebnisse statistischer Analysen zum Nennwert zu interpretieren, wenn jeder Schritt im Voraus geplant wurde. Speziell:

  • Die Probengröße muss im Voraus ausgewählt werden. Es ist nicht in Ordnung, die Daten weiter zu analysieren, wenn weitere Themen hinzugefügt werden, und anzuhalten, wenn die Ergebnisse gut aussehen.
  • Alle Methoden zur Normalisierung der Daten oder zum Ausschließen von Ausreißern müssen ebenfalls im Voraus festgelegt werden. Es ist nicht in Ordnung, verschiedene Teilmengen der Daten zu analysieren, bis Sie die gewünschten Ergebnisse erhalten.
  • Und schließlich müssen natürlich die statistischen Methoden im Voraus festgelegt werden. Ist es nicht in Ordnung, die Daten mit parametrischen und nichtparametrischen Methoden zu analysieren und die gewünschten Ergebnisse auszuwählen?

Erkundungsmethoden können nützlich sein, um zu erforschen. Aber dann können Sie sich nicht umdrehen und regelmäßige statistische Tests durchführen und die Ergebnisse auf die übliche Weise interpretieren.

Harvey Motulsky
quelle
5
Ich denke, John Tukey könnte anderer Meinung sein. En.wikipedia.org/wiki/Exploratory_data_analysis ; o)
Dikran Marsupial
3
Ich würde hier teilweise nicht zustimmen. Ich denke, die Einschränkung, die die Leute vermissen, ist, dass die entsprechenden Konditionierungsoperationen für diese Art von Problemen leicht zu ignorieren sind . Jede dieser Operationen ändert die Bedingungen der Folgerung und damit die Bedingungen ihrer Anwendbarkeit (und damit ihrer Allgemeinheit). Dies gilt definitiv nur für "Bestätigungsanalysen", bei denen ein genau definiertes Modell und eine Frage erstellt wurden. In der Erkundungsphase wird nicht versucht, bestimmte Fragen zu beantworten, sondern ein Modell zu erstellen und eine Hypothese für die Daten zu erstellen.
Wahrscheinlichkeitslogik
Ich habe meine Antwort ein wenig überarbeitet, um die Kommentare von Dikran und Wahrscheinlichkeitslogik zu berücksichtigen. Vielen Dank.
Harvey Motulsky
1
Für mich ist das "Ausschließen von Ausreißern" nicht so eindeutig falsch, wie Ihre Antwort impliziert. Beispielsweise sind Sie möglicherweise nur an den Beziehungen in einem bestimmten Bereich von Antworten interessiert, und das Ausschließen von Ausreißern hilft tatsächlich bei dieser Art von Analyse. Wenn Sie beispielsweise das Einkommen der "Mittelklasse" modellieren möchten, ist es eine gute Idee, die überreichen und verarmten Ausreißer auszuschließen. Es sind nur die Ausreißer innerhalb Ihres Inferenzrahmens (z. B. "seltsame" Beobachtungen der Mittelklasse), auf die Ihre Kommentare zutreffen
Wahrscheinlichkeitsanalyse vom
2
Letztendlich besteht das eigentliche Problem mit den in der ersten Antwort aufgeworfenen Fragen darin, dass sie p-Werte (zumindest teilweise) ungültig machen. Wenn Sie daran interessiert sind, einen beobachteten Effekt zu quantifizieren, sollten Sie in der Lage sein, alle oben genannten Schritte ungestraft durchzuführen.
Russellpierce
9

Zunge fest in der Wange: Für Frequentisten der Bayes'sche Wahrscheinlichkeitsbegriff; für Bayesianer das frequentistische Konzept der Wahrscheinlichkeit. ;O)

Beide haben natürlich ihre Vorzüge, aber es kann sehr schwierig sein zu verstehen, warum ein Framework interessant / nützlich / gültig ist, wenn Sie das andere zu genau erfassen. Kreuzvalidierung ist ein gutes Mittel, da das Stellen von Fragen und das Abhören von Antworten ein guter Weg ist, um zu lernen.

Dikran Beuteltier
quelle
2
Ich halte mich an die Regel, die ich verwende, um mich zu erinnern: Verwende Wahrscheinlichkeiten, um Frequenzen vorherzusagen. Sobald die Frequenzen beobachtet wurden, verwenden Sie sie, um die von Ihnen zugewiesenen Wahrscheinlichkeiten zu bewerten. Leider ist es verwirrend, dass die von Ihnen zugewiesene Wahrscheinlichkeit häufig einer von Ihnen beobachteten Frequenz entspricht . Eine Sache, die ich immer seltsam fand, ist, warum Frequentisten überhaupt das Wort Wahrscheinlichkeit verwenden. Wäre es nicht einfacher, ihre Konzepte zu verstehen, wenn der Ausdruck "die Häufigkeit eines Ereignisses" anstelle von "die Wahrscheinlichkeit eines Ereignisses" verwendet würde?
Wahrscheinlichkeitsrechnung
p(x)L(xn,x)dxi=1i=nL(x[ni],xi)xnx[ni]xi
8

Meiner persönlichen Erfahrung nach kann der Begriff der Wahrscheinlichkeit auch besonders für Nicht-Statistiker viel Aufsehen erregen. Wie Wikipedia sagt, wird es sehr oft mit dem Begriff der Wahrscheinlichkeit verwechselt, was nicht genau richtig ist.

radek
quelle
7

Vergleichsinferenz . Sogar Fisher gab zu, dass er nicht verstand, was es tut, und er erfand es.

ein Stop
quelle
6

Was bedeuten die verschiedenen Distributionen wirklich, außer wie sie verwendet werden?

mariana weicher
quelle
3
Dies war die Frage, die mich nach Statistik 101 am meisten ablenkte. Ich würde auf viele Verteilungen stoßen, für die es keine Motivation gab, abgesehen von "Eigenschaften", die für die jeweiligen Themen relevant waren. Es dauerte inakzeptabel lange, um herauszufinden, was überhaupt vertreten war.
Sesqu
1
Maximales Entropie- "Denken" ist eine Methode, die hilft, zu verstehen, was eine Verteilung ist, nämlich einen Wissenszustand (oder eine Beschreibung der Ungewissheit über etwas). Dies ist die einzige Definition, die für mich in allen Situationen Sinn gemacht hat
Wahrscheinlichkeitsrechnung
Einen guten Überblick darüber gibt Ben Bolker im Abschnitt 'Bestiarium der Verteilungen' von Ecological Models and Data in R
David LeBauer,
5

Ich denke, die Frage ist auf zwei Arten interpretierbar, die sehr unterschiedliche Antworten geben werden:

1) Welches Konzept ist für Personen, die sich mit Statistik beschäftigen, insbesondere auf einem relativ fortgeschrittenen Niveau, am schwierigsten zu verstehen?

2) Welches statistische Konzept wird von den meisten Menschen missverstanden?

Zu 1) Ich kenne die Antwort überhaupt nicht. Vielleicht etwas aus der Maßtheorie? Irgendeine Art von Integration? Ich weiß es nicht.

Für 2) p-Wert, Hände runter.

Peter Flom - Setzen Sie Monica wieder ein
quelle
Maßtheorie ist weder ein Gebiet der Statistik noch schwierig. Einige Arten der Integration sind schwierig, aber auch dies ist keine Statistik.
Pyon
5

Das Konfidenzintervall in nichtbayesianischer Tradition ist schwierig.

Shige
quelle
5

Ich denke, die Leute vermissen das Boot so ziemlich alles beim ersten Mal. Ich denke, was die meisten Studenten nicht verstehen, ist, dass sie normalerweise Parameter basierend auf Stichproben schätzen. Sie kennen den Unterschied zwischen einer Stichprobenstatistik und einem Populationsparameter nicht. Wenn Sie diese Ideen in den Kopf schlagen, sollten die anderen Dinge ein bisschen einfacher folgen. Ich bin mir sicher, dass die meisten Studenten den Kern der CLT auch nicht verstehen.

Adam
quelle