Am verwirrendsten statistische Begriffe

47

Wir Statistiker verwenden viele Wörter auf eine Art und Weise, die sich geringfügig von der Art und Weise unterscheidet, wie alle anderen sie verwenden. Dies verursacht viele Probleme, wenn wir lehren oder erklären, was wir tun. Ich beginne eine Liste (und füge jetzt per Kommentar einige Definitionen hinzu):

  • Macht ist die Fähigkeit, eine falsche Nullhypothese richtig abzulehnen. Normalerweise bedeutet dies, richtig zu sagen, dass "etwas passiert".
  • Bias - Eine Statistik ist voreingenommen, wenn sie sich systematisch von den damit verbundenen Populationsparametern unterscheidet.
  • Signifikanz - Die Ergebnisse sind mit einigen Prozent (oft 5%) in der folgenden Situation statistisch signifikant: Wenn die Population, aus der die Stichprobe stammt, einen wahren Effekt von 0 hat, würde nur eine Statistik auftreten, die mindestens so extrem ist, wie die aus der Stichprobe erhaltene 5% der Zeit.
  • Interaktion - Zwei unabhängige Variablen interagieren, wenn die Beziehung zwischen der abhängigen Variablen und einer unabhängigen Variablen auf verschiedenen Ebenen der anderen unabhängigen Variablen unterschiedlich ist

Aber es muss noch viele andere geben!

Peter Flom
quelle
5
Ich würde vorschlagen, dass die Leute ihren Antworten auch einen größeren Kontext hinzufügen. Beispiele können dasselbe Wort sein, das auf verschiedenen Gebieten unterschiedlich verwendet wird (feste Effekte Gelman, 2005 ) oder Wörter, die in verschiedenen Kontexten unterschiedliche Bedeutungen haben (Signifikanz vs. statistische Signifikanz Bushway et al., 2006 ).
Andy W
5
Es wäre gut, wenn die Antwortenden in ein oder zwei Sätzen erklären könnten, was der "technische" Begriff wirklich bedeutet oder was dazu führen könnte, dass er eine andere Bedeutung hat.
chl
Ich werde meine Antwort später nach Ihren Kommentaren
vervollständigen ;-)
1
... und "Korrelation"!
Stéphane Laurent
1
"Beispiel" finden Sie in den Kommentaren zu stats.stackexchange.com/questions/20945/… .
Whuber

Antworten:

21

"Signifikant" ist das größte, auf das ich stoße, weil es sowohl eine gemeinsame englische Bedeutung hat als auch diese Bedeutung in der Diskussion der Forschungsergebnisse auftaucht. Ich finde mich sogar darin, "signifikant" zu mischen, um wichtig in demselben Satz zu bedeuten, in dem ich über statistische Ergebnisse gesprochen habe.

Auf diese Weise liegt der Wahnsinn.

Fomite
quelle
Richtig, aber es gibt kein besseres Wort für "Ich bin mir ziemlich sicher, dass es bedeutend ist, aber ich habe keine Tests durchgeführt und werde es auch nicht tun, weil es offensichtlich ist / nicht möglich ist / was auch immer"
naught101
17

Ich würde vorschlagen, Linear zur Liste hinzuzufügen.

Ich habe eine Frage zu math.SE gestellt, was ich als Ingenieur als lineare mittlere quadratische Fehlerabschätzung einer Zufallsvariablen mit dem Wert einer Zufallsvariablen (was bedeutet, dass als wobei und so gewählt werden, dass ) minimiert wird , und eine Teilantwort gegeben werden. Einer der Kommentare zu der Frage sagteX Y Y = a X + b a b E [ ( Y - a X - b ) 2 ]YXYY^=aX+babE[(YaXb)2]

"Ihre Sprache ist mir etwas unangenehm, da ich befürchte, dass diese Art der Verwendung des Wortes" linear "zu dem weit verbreiteten Missverständnis führen könnte, dass der Grund für die lineare Regression in der sogenannten linearen Regression darin besteht, dass man eine Linie einfügt. Leute, die das denken dann ist es verwirrend, wenn ein Statistiker darauf besteht, dass man eine lineare Regression durchführt, wenn man eine Parabel oder eine Sinuswelle usw. anpasst. "

Was bedeutet lineare Regression für einen Statistiker?

Dilip Sarwate
quelle
5
Verwandte Frage auf der Website in Bezug auf diese Antwort: Was bedeutet linear in der linearen Regression?
Andy W
1
@AndyW Also würdest du sagen, dass Linear zu der Liste gehört, die Peter Flom gestartet hat, oder nicht?
Dilip Sarwate
1
Ja, ich bin damit einverstanden, dass die Rechnung für diese Liste passt. (+1)
Andy W
4
Es passt in die Liste, aber aus einem ungewöhnlichen Grund: Die Bedeutung des Begriffs "linear" ist allgemein bekannt und wird in vielen mathematisch orientierten Bereichen konsistent verwendet. Die mögliche Verwirrung betrifft, welcher Teil der Formel linear ist.
Whuber
Können Sie ein Beispiel dafür geben, wie Sie eine Parabel anpassen und sie dennoch als lineares Modell bezeichnen?
Oneloop
14

Wahrscheinlichkeit

Mir scheint, dass die meisten Probleme bei der Interpretation von Hypothesentests und Konfidenzintervallen auf die Anwendung einer Bayes'schen Definition von "Wahrscheinlichkeit" zurückzuführen sind, wenn das Verfahren auf einer häufigeren basiert. Zum Beispiel ist der p-Wert die Wahrscheinlichkeit, dass die Nullhypothese wahr ist, wenn AFAICS keine Wahrscheinlichkeit mit der Wahrheit einer bestimmten Hypothese in einer frequentistischen Umgebung assoziieren kann.

Dikran Beuteltier
quelle
4
Es sieht so aus, als gäbe es die gleiche Überlegung für diejenigen, die sagen, dass der (wahre) Parameter eine 95% ige Chance hat, zwischen xx und xx zu liegen, wenn man von Konfidenzintervallen spricht oder sie interpretiert.
chl
1
ja absolut!
Dikran Beuteltier
1
+1 Ich würde Ihren letzten Satz jedoch etwas anders formulieren. Innerhalb der häufigsten Einstellung ist die Wahrscheinlichkeit, dass die Nullhypothese wahr ist, entweder 1 oder 0, aber Sie wissen nicht, welche . (Streng genommen ist dies nicht ganz richtig ist, weil ‚Wahrscheinlichkeit‘ ist eine langfristige relative Häufigkeit und ‚Langfristiges Frequenz‘ gilt nicht wirklich. Dennoch , wenn phrasiert diese Art und Weise Menschen können verstehen , was gesagt wird / wie wir verstehen , Die Leute erkennen zum Beispiel, dass Sie die Nullhypothese p-value nicht als die Wahrscheinlichkeit verwenden können, dass die Nullhypothese wahr ist.)
gung - Setzen Sie Monica wieder ein
2
"weil 'Wahrscheinlichkeit' eine langfristige relative Häufigkeit ist" Viele Probabilisten werden diese Aussage vehement bestreiten
Dilip Sarwate
14

"Vertrauen"

Es ist sehr schwer, Nicht-Statistiker davon abzubringen, dass ihr Konfidenzintervall keine (direkte) Aussage über die Glaubwürdigkeit verschiedener Parameterwerte ist.

Um Vertrauen in die technische Bedeutung des Begriffs zu haben, müssen wir uns eine Reihe von wiederholten Experimenten vorstellen, von denen jedes ein Intervall auf eine zuvor festgelegte Weise berechnet. Als 95% -Konfidenzintervall wird bei 95% dieser Verwendungen der Formel der relevante interessierende Parameter erfasst.

Aber Nicht-Statistiker interpretieren "95% -Vertrauen" routinemäßig als Aussage über plausible Parameterwerte, basierend auf nur einem Experiment. Typischerweise wird davon ausgegangen, dass das Intervall 95% einiger hinterer Annahmen über den Parameter abdeckt, dh "wir sind uns ziemlich sicher, dass der Parameter zwischen und ". Dies definiert stattdessen ein glaubwürdiges Intervall.bab

(Es gibt natürlich Situationen, in denen die beiden Begriffe annähernd oder genau übereinstimmen. Im Allgemeinen jedoch nicht, und die numerische Übereinstimmung beseitigt nicht das Problem des Missbrauchs technischer Begriffe.)

Gast
quelle
10

"Wahrscheinlichkeit" - es ist ein Synonym für "Wahrscheinlichkeit" in der Alltagssprache, aber in der Statistik hat es eine besondere Bedeutung: Es ist eine Funktion der Parameter eines statistischen Modells, dessen Wert die Wahrscheinlichkeit ist, dass das beobachtete Ergebnis die Parameter annimmt sind gleich den Parameterwerten.

xuexue
quelle
8

Error.

In der Statistik ist ein "Fehler" eine Abweichung eines tatsächlichen Datenwerts von der Vorhersage eines Modells.

Im wirklichen Leben ist ein Fehler ein Splitting Mstake oder eine andere Dummheit.

Harvey Motulsky
quelle
Ist ein Rechtschreibfehler nicht nur eine Abweichung vom tatsächlichen (Soll-) Wert des Kommunikationsmediums? Ich verstehe nicht wirklich, wie das ein anderes Wort ist, es ist nur so, dass es in einem anderen (aber nicht widersprüchlichen) Kontext verwendet wird. Es fällt mir schwer zu glauben, dass es für jemanden, der neu auf dem Gebiet ist, so verwirrend wäre.
Naught101
2
Ein Grund, warum ein Wert von einer Vorhersage abweichen kann, ist, dass der Experimentator einen Fehler gemacht hat. Das ist wie ein Rechtschreibfehler. Aber warum ist Ihr Gewicht anders als das Durchschnittsgewicht aller Menschen Ihres Geschlechts und Alters? Warum unterscheidet sich Ihr Einkommen vom Durchschnittseinkommen? In der Statistik ist diese Abweichung vom Mittelwert ein "Fehler", aber kein Fehler, sondern nur eine Variation.
Harvey Motulsky
Stimmt, aber es hängt davon ab, wie Sie es sehen, denke ich. Wenn Sie sich die Schreibweise eines Wortes über einer Stichprobe einer Grundschule ansehen, werden Sie Variationen bekommen, die von Menschen verursacht werden, ja, aber nicht vom Experimentator. Sie könnten das Gleiche über das Schreiben in Englisch aus verschiedenen Altersgruppen betrachten. Ich denke, Sie werden feststellen, dass das frühe Englisch eine viel höhere Variabilität hatte :)
naught101
@ HarveyMotulsky: Analytische Chemie nutzt Fehler in beide Richtungen. Wir sprechen von systematischen Fehlern, Zufallsfehlern und groben Fehlern. Lehrbuch: "Grobe Fehler können vermieden werden".
cbeleites unterstützt Monica
8

"Inferenz"

Eines der am schwersten zu verstehenden Dinge war für mich zunächst der Unterschied zwischen einer Population und einer Stichprobe. Statistiker schreiben diese ausgefallenen Regressionsgleichungen auf Populationsebene und fallen dann plötzlich in die Arbeit auf Stichprobenebene und die s werden zu s. Es hat lange gedauert, bis mir klar wurde, dass Sie die Populationsparameter anhand der Stichprobendaten und Regressionsgleichungen schätzen.bβb

Ein weiterer wichtiger Teil der Inferenz ist der zentrale Grenzwertsatz. Sobald Sie feststellen, dass Sie lediglich Stichproben aus einer Grundgesamtheit entnehmen - obwohl die Stichprobenentnahme ein weiteres kompliziertes Merkmal ist, das der Folgerung ähnelt -, verstehen Sie, dass selbst wenn der Stichprobenmittelwert einen Wert enthält, dieser Wert nicht unbedingt derselbe Mittelwert wie in der Grundgesamtheit ist .

Vielleicht habe ich Ihre Frage relativ locker verstanden, aber wenn jemand die Schlussfolgerung oder die Unterschiede zwischen einer Stichprobe und der Bevölkerung versteht, öffnet sich ihnen die gesamte Statistik.

Adam
quelle
7

Für uns (oder zumindest für mich) legt die "Zufälligkeit" einer "Stichprobe" nahe, dass sie für die "Bevölkerung" repräsentativ ist.

Für andere impliziert "Zufälligkeit" manchmal, dass eine Person / Sache ungewöhnlich ist.

Thomas Levine
quelle
1
Ich bin nicht auf diese Verwirrung über "Zufälligkeit" gestoßen. Aber wenn ja, dann existiert es eindeutig.
Peter Flom - Reinstate Monica
3
Genauer gesagt, dass es existiert hat
Thomas Levine
1
Die letztere Verwendung von "zufällig" scheint mir ziemlich neu zu sein. Ich finde es aus diesem Grund etwas nervig (erschwert es den Leuten nur, die Statistiken zu verstehen). Es ist sogar noch ärgerlich , wenn ich mich in diesem Sinne gehört mit ..
naught101
5

Ich denke, man sollte zwischen Begriffen unterscheiden, die die Öffentlichkeit verwirren, und Begriffen, die Statistiker verwirren. Die obigen Vorschläge sind meistens Begriffe, die von Statistikern gut verstanden und von der Öffentlichkeit (möglicherweise) missverstanden werden. Ich möchte der Liste einige Begriffe hinzufügen, die Statistiker nicht verstehen:

  • Bayesian: Ursprünglich bezeichnet als subjektiver Bayes (auch bekannt als epistemisch, De-Finetti). Heutzutage wird der Begriff immer dann verwendet, wenn sich die Bayes-Regel zeigt, selten im Zusammenhang mit subjektiven Überzeugungen, die als Entscheidungstheorie angesehen werden.
  • Empirische Bayes: Bezieht sich ursprünglich auf eine frequentistische Aufstellung mit einem nicht parametrischen Prior. Heutzutage bedeutet dies in der Regel, dass die Parameter des parametrischen (objektiven) Priores geschätzt werden und a priori nicht bekannt sind. Das heißt, was früher als Typ-II-Maximalwahrscheinlichkeit bekannt war.
  • Nicht parametrisch: Bezieht sich manchmal auf "modellfrei". Manchmal zu "Vertrieb frei". In den Tagen praktisch uninformativ geworden, könnten "parametrische" Modelle Millionen von Parametern umfassen.
  • Typ III-Fehler: bezieht sich manchmal auf einen Vorzeichenfehler. Irgendwann mit Bezug auf eine Fehlspezifikation des Modells.
JohnRos
quelle
Als ich gefragt habe, wollte ich "Begriffe, die die Öffentlichkeit verwirren", aber sicherlich sind auch Begriffe, die die Statistiker verwirren, eine Auflistung wert
Peter Flom - Reinstate Monica
Dies sollte wahrscheinlich in separate Antworten aufgeteilt werden.
Naught101
4

Ökologisch, häufig verwendet, um sich auf biologische Systeme zu beziehen, aber auch ein statistischer Irrtum. Aus Wikipedia:

Ein ökologischer Irrtum (oder ein ökologischer Folgerungsirrtum) ist ein Fehler bei der Interpretation statistischer Daten in einer ökologischen Studie, bei der Rückschlüsse auf die Natur bestimmter Personen ausschließlich auf aggregierten Statistiken beruhen, die für die Gruppe erhoben wurden, zu der diese Personen gehören. Dieser Irrtum setzt voraus, dass einzelne Mitglieder einer Gruppe die durchschnittlichen Eigenschaften der gesamten Gruppe aufweisen.

Radfahrer
quelle
3

Ist eine "Umfrage" eine Art Mathematik ("Stichprobenerhebung") oder ein Blatt Papier ("Fragebogen")?

Ich habe keine Umfrage dazu durchgeführt, aber ich vermute, dass ein Großteil der Öffentlichkeit eine "Umfrage" als letztere ansieht. Ich vermute weiter, dass sie nicht an Ersteres denken.

Thomas Levine
quelle
2
Werden Umfragen nicht von Vermessern durchgeführt? ;)
Radfahrer
3

"Belastungen", "Koeffizienten" und "Gewichte"; wenn es um die Hauptkomponentenanalyse geht.

Ich finde normalerweise, dass die Leute ziemlich ad-hoc sind, wenn sie sie verwenden, sie austauschbar verwenden, ohne vorher explizit zu definieren, was sie bedeuten, und ich bin tatsächlich auf Papiere gestoßen, die sich auf "Laden von Vektoren" beziehen und manchmal die PCs selbst und andere Male die "Gewichte" bedeuten. mit einem bestimmten PC verbunden.

Die Tatsache, dass Jollifees exzellenter Verweis auf Hauptkomponenten am Ende von Abschnitt 1.1 lautet "Einige Autoren unterscheiden zwischen den Begriffen 'Belastungen' und 'Koeffizienten', abhängig von der verwendeten Normierungsbedingung, aber sie werden in diesem Buch austauschbar verwendet." Die Leute dachten nur, sie hätten einen freien Pass, um die Terminologie nach Belieben zu mischen und anzupassen.

usεr11852 sagt Reinstate Monic
quelle
1

Additives Modell. Ich weiß immer noch nicht genau, was das bedeutet. Ich denke, es bezieht sich auf ein Modell ohne Interaktionsbegriffe. Aber dann werde ich auf einen Artikel stoßen, in dem sie ihn verwenden, um auf etwas anderes zu verweisen, dh ein Spline-Modell.

Tal
quelle
0

Einer der Begriffe, die ich am verwirrendsten finde, ist die "Verwirrungsmatrix". Natürlich ist der Begriff selbst verwirrend, nicht das Konzept.

Ich habe versucht, die Geschichte des Begriffs zu verfolgen, und es ist auch sehr interessant. Die Verwirrungsmatrix wurde 1904 von ( http://en.wikipedia.org/wiki/Karl_Pearson ) erfunden . Er verwendete den Begriff http://en.wikipedia.org/wiki/Contingency_table . Es erschien bei Karl Pearson, FRS (1904). Mathematische Beiträge zur Evolutionstheorie (PDF). Dulau und Co. http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003064833.pdf

Während War World 2 wurde die Detection_theory als Untersuchung der Beziehungen zwischen Reiz und Reaktion entwickelt. Dort wurde die Verwirrungsmatrix verwendet.

Aufgrund der Detektionstheorie wurde der Begriff Psychologie verwendet. Von dort erreichte der Begriff maschinelles Lernen.

Es scheint, dass das Konzept, obwohl es in der Statistik erfunden wurde, die in hohem Maße mit maschinellem Lernen zu tun hat, nach einem Umweg über einen Zeitraum von 100 Jahren maschinelles Lernen erreichte.

Für einige Verweise auf die Verwendung des Begriffs siehe: Woher stammt der Begriff Verwirrungsmatrix?

DaL
quelle
-4

"Statistiken"

Für die breite Öffentlichkeit, ein Ersatz für "Jetzt werde ich dich anlügen und auf eine Weise sprechen, die du nicht verstehst."

John
quelle