Wir Statistiker verwenden viele Wörter auf eine Art und Weise, die sich geringfügig von der Art und Weise unterscheidet, wie alle anderen sie verwenden. Dies verursacht viele Probleme, wenn wir lehren oder erklären, was wir tun. Ich beginne eine Liste (und füge jetzt per Kommentar einige Definitionen hinzu):
- Macht ist die Fähigkeit, eine falsche Nullhypothese richtig abzulehnen. Normalerweise bedeutet dies, richtig zu sagen, dass "etwas passiert".
- Bias - Eine Statistik ist voreingenommen, wenn sie sich systematisch von den damit verbundenen Populationsparametern unterscheidet.
- Signifikanz - Die Ergebnisse sind mit einigen Prozent (oft 5%) in der folgenden Situation statistisch signifikant: Wenn die Population, aus der die Stichprobe stammt, einen wahren Effekt von 0 hat, würde nur eine Statistik auftreten, die mindestens so extrem ist, wie die aus der Stichprobe erhaltene 5% der Zeit.
- Interaktion - Zwei unabhängige Variablen interagieren, wenn die Beziehung zwischen der abhängigen Variablen und einer unabhängigen Variablen auf verschiedenen Ebenen der anderen unabhängigen Variablen unterschiedlich ist
Aber es muss noch viele andere geben!
terminology
communication
Peter Flom
quelle
quelle
Antworten:
"Signifikant" ist das größte, auf das ich stoße, weil es sowohl eine gemeinsame englische Bedeutung hat als auch diese Bedeutung in der Diskussion der Forschungsergebnisse auftaucht. Ich finde mich sogar darin, "signifikant" zu mischen, um wichtig in demselben Satz zu bedeuten, in dem ich über statistische Ergebnisse gesprochen habe.
Auf diese Weise liegt der Wahnsinn.
quelle
Ich würde vorschlagen, Linear zur Liste hinzuzufügen.
Ich habe eine Frage zu math.SE gestellt, was ich als Ingenieur als lineare mittlere quadratische Fehlerabschätzung einer Zufallsvariablen mit dem Wert einer Zufallsvariablen (was bedeutet, dass als wobei und so gewählt werden, dass ) minimiert wird , und eine Teilantwort gegeben werden. Einer der Kommentare zu der Frage sagteX Y Y = a X + b a b E [ ( Y - a X - b ) 2 ]Y X Y Y^=aX+b a b E[(Y−aX−b)2]
"Ihre Sprache ist mir etwas unangenehm, da ich befürchte, dass diese Art der Verwendung des Wortes" linear "zu dem weit verbreiteten Missverständnis führen könnte, dass der Grund für die lineare Regression in der sogenannten linearen Regression darin besteht, dass man eine Linie einfügt. Leute, die das denken dann ist es verwirrend, wenn ein Statistiker darauf besteht, dass man eine lineare Regression durchführt, wenn man eine Parabel oder eine Sinuswelle usw. anpasst. "
Was bedeutet lineare Regression für einen Statistiker?
quelle
Wahrscheinlichkeit
Mir scheint, dass die meisten Probleme bei der Interpretation von Hypothesentests und Konfidenzintervallen auf die Anwendung einer Bayes'schen Definition von "Wahrscheinlichkeit" zurückzuführen sind, wenn das Verfahren auf einer häufigeren basiert. Zum Beispiel ist der p-Wert die Wahrscheinlichkeit, dass die Nullhypothese wahr ist, wenn AFAICS keine Wahrscheinlichkeit mit der Wahrheit einer bestimmten Hypothese in einer frequentistischen Umgebung assoziieren kann.
quelle
"Vertrauen"
Es ist sehr schwer, Nicht-Statistiker davon abzubringen, dass ihr Konfidenzintervall keine (direkte) Aussage über die Glaubwürdigkeit verschiedener Parameterwerte ist.
Um Vertrauen in die technische Bedeutung des Begriffs zu haben, müssen wir uns eine Reihe von wiederholten Experimenten vorstellen, von denen jedes ein Intervall auf eine zuvor festgelegte Weise berechnet. Als 95% -Konfidenzintervall wird bei 95% dieser Verwendungen der Formel der relevante interessierende Parameter erfasst.
Aber Nicht-Statistiker interpretieren "95% -Vertrauen" routinemäßig als Aussage über plausible Parameterwerte, basierend auf nur einem Experiment. Typischerweise wird davon ausgegangen, dass das Intervall 95% einiger hinterer Annahmen über den Parameter abdeckt, dh "wir sind uns ziemlich sicher, dass der Parameter zwischen und ". Dies definiert stattdessen ein glaubwürdiges Intervall.ba b
(Es gibt natürlich Situationen, in denen die beiden Begriffe annähernd oder genau übereinstimmen. Im Allgemeinen jedoch nicht, und die numerische Übereinstimmung beseitigt nicht das Problem des Missbrauchs technischer Begriffe.)
quelle
"Wahrscheinlichkeit" - es ist ein Synonym für "Wahrscheinlichkeit" in der Alltagssprache, aber in der Statistik hat es eine besondere Bedeutung: Es ist eine Funktion der Parameter eines statistischen Modells, dessen Wert die Wahrscheinlichkeit ist, dass das beobachtete Ergebnis die Parameter annimmt sind gleich den Parameterwerten.
quelle
Error.
In der Statistik ist ein "Fehler" eine Abweichung eines tatsächlichen Datenwerts von der Vorhersage eines Modells.
Im wirklichen Leben ist ein Fehler ein Splitting Mstake oder eine andere Dummheit.
quelle
"Inferenz"
Eines der am schwersten zu verstehenden Dinge war für mich zunächst der Unterschied zwischen einer Population und einer Stichprobe. Statistiker schreiben diese ausgefallenen Regressionsgleichungen auf Populationsebene und fallen dann plötzlich in die Arbeit auf Stichprobenebene und die s werden zu s. Es hat lange gedauert, bis mir klar wurde, dass Sie die Populationsparameter anhand der Stichprobendaten und Regressionsgleichungen schätzen.bβ b
Ein weiterer wichtiger Teil der Inferenz ist der zentrale Grenzwertsatz. Sobald Sie feststellen, dass Sie lediglich Stichproben aus einer Grundgesamtheit entnehmen - obwohl die Stichprobenentnahme ein weiteres kompliziertes Merkmal ist, das der Folgerung ähnelt -, verstehen Sie, dass selbst wenn der Stichprobenmittelwert einen Wert enthält, dieser Wert nicht unbedingt derselbe Mittelwert wie in der Grundgesamtheit ist .
Vielleicht habe ich Ihre Frage relativ locker verstanden, aber wenn jemand die Schlussfolgerung oder die Unterschiede zwischen einer Stichprobe und der Bevölkerung versteht, öffnet sich ihnen die gesamte Statistik.
quelle
Für uns (oder zumindest für mich) legt die "Zufälligkeit" einer "Stichprobe" nahe, dass sie für die "Bevölkerung" repräsentativ ist.
Für andere impliziert "Zufälligkeit" manchmal, dass eine Person / Sache ungewöhnlich ist.
quelle
Ich denke, man sollte zwischen Begriffen unterscheiden, die die Öffentlichkeit verwirren, und Begriffen, die Statistiker verwirren. Die obigen Vorschläge sind meistens Begriffe, die von Statistikern gut verstanden und von der Öffentlichkeit (möglicherweise) missverstanden werden. Ich möchte der Liste einige Begriffe hinzufügen, die Statistiker nicht verstehen:
quelle
Ökologisch, häufig verwendet, um sich auf biologische Systeme zu beziehen, aber auch ein statistischer Irrtum. Aus Wikipedia:
Ein ökologischer Irrtum (oder ein ökologischer Folgerungsirrtum) ist ein Fehler bei der Interpretation statistischer Daten in einer ökologischen Studie, bei der Rückschlüsse auf die Natur bestimmter Personen ausschließlich auf aggregierten Statistiken beruhen, die für die Gruppe erhoben wurden, zu der diese Personen gehören. Dieser Irrtum setzt voraus, dass einzelne Mitglieder einer Gruppe die durchschnittlichen Eigenschaften der gesamten Gruppe aufweisen.
quelle
Ist eine "Umfrage" eine Art Mathematik ("Stichprobenerhebung") oder ein Blatt Papier ("Fragebogen")?
Ich habe keine Umfrage dazu durchgeführt, aber ich vermute, dass ein Großteil der Öffentlichkeit eine "Umfrage" als letztere ansieht. Ich vermute weiter, dass sie nicht an Ersteres denken.
quelle
"Belastungen", "Koeffizienten" und "Gewichte"; wenn es um die Hauptkomponentenanalyse geht.
Ich finde normalerweise, dass die Leute ziemlich ad-hoc sind, wenn sie sie verwenden, sie austauschbar verwenden, ohne vorher explizit zu definieren, was sie bedeuten, und ich bin tatsächlich auf Papiere gestoßen, die sich auf "Laden von Vektoren" beziehen und manchmal die PCs selbst und andere Male die "Gewichte" bedeuten. mit einem bestimmten PC verbunden.
Die Tatsache, dass Jollifees exzellenter Verweis auf Hauptkomponenten am Ende von Abschnitt 1.1 lautet "Einige Autoren unterscheiden zwischen den Begriffen 'Belastungen' und 'Koeffizienten', abhängig von der verwendeten Normierungsbedingung, aber sie werden in diesem Buch austauschbar verwendet." Die Leute dachten nur, sie hätten einen freien Pass, um die Terminologie nach Belieben zu mischen und anzupassen.
quelle
Additives Modell. Ich weiß immer noch nicht genau, was das bedeutet. Ich denke, es bezieht sich auf ein Modell ohne Interaktionsbegriffe. Aber dann werde ich auf einen Artikel stoßen, in dem sie ihn verwenden, um auf etwas anderes zu verweisen, dh ein Spline-Modell.
quelle
Einer der Begriffe, die ich am verwirrendsten finde, ist die "Verwirrungsmatrix". Natürlich ist der Begriff selbst verwirrend, nicht das Konzept.
Ich habe versucht, die Geschichte des Begriffs zu verfolgen, und es ist auch sehr interessant. Die Verwirrungsmatrix wurde 1904 von ( http://en.wikipedia.org/wiki/Karl_Pearson ) erfunden . Er verwendete den Begriff http://en.wikipedia.org/wiki/Contingency_table . Es erschien bei Karl Pearson, FRS (1904). Mathematische Beiträge zur Evolutionstheorie (PDF). Dulau und Co. http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003064833.pdf
Während War World 2 wurde die Detection_theory als Untersuchung der Beziehungen zwischen Reiz und Reaktion entwickelt. Dort wurde die Verwirrungsmatrix verwendet.
Aufgrund der Detektionstheorie wurde der Begriff Psychologie verwendet. Von dort erreichte der Begriff maschinelles Lernen.
Es scheint, dass das Konzept, obwohl es in der Statistik erfunden wurde, die in hohem Maße mit maschinellem Lernen zu tun hat, nach einem Umweg über einen Zeitraum von 100 Jahren maschinelles Lernen erreichte.
Für einige Verweise auf die Verwendung des Begriffs siehe: Woher stammt der Begriff Verwirrungsmatrix?
quelle
"Statistiken"
Für die breite Öffentlichkeit, ein Ersatz für "Jetzt werde ich dich anlügen und auf eine Weise sprechen, die du nicht verstehst."
quelle