Welche missbräuchlichen statistischen Begriffe sind zu korrigieren?

103

Statistik ist überall; Die gebräuchliche Verwendung statistischer Begriffe ist jedoch häufig unklar.

Die Begriffe Wahrscheinlichkeit und Gewinnchancen werden trotz ihrer gut definierten und unterschiedlichen mathematischen Ausdrücke im Laien-Englisch austauschbar verwendet.

Wenn man den Begriff Wahrscheinlichkeit nicht von der Wahrscheinlichkeit trennt, verwirrt dies Ärzte routinemäßig, die versuchen, die Wahrscheinlichkeit von Brustkrebs bei einer positiven Mammographie zu quantifizieren: „Oh, was für ein Unsinn. Ich kann das nicht machen. Du solltest meine Tochter testen; Sie studiert Medizin. “

Ebenso verbreitet ist die Verwendung von Korrelation anstelle von Assoziation . Oder Korrelation impliziert Kausalität .

In Al Gores berühmtem Dokumentarfilm An Inconvenient Truth ( Eine unbequeme Wahrheit) zeigt eine Folie die Korrelation von Eis-Kern und Temperaturen.CO2

Bildbeschreibung hier eingeben

FRAGE: Welche statistischen Begriffe bereiten ohne mathematische Strenge Interpretationsprobleme und sind deshalb eine Korrektur wert?

Antoni Parellada
quelle
4
Das Verhältnis von Chancen und Wahrscheinlichkeiten bei Laien scheint mir kein Problem zu sein, da Laien sie sowieso nicht berechnen würden, sondern nur sagen würden, dass die Werte niedrig oder hoch sind und die beiden direkt miteinander korrelieren.
Mehrdad
@Mehrdad Ich stimme zu. Genau das ist der Punkt ... Gibt es eine Situation, in der die missbräuchliche Verwendung dieser im Rahmen der Statistik übernommenen und technisch veränderten Wörter zu Problemen führt? Zum Beispiel ist klar, dass der Klimawandel ein wichtiges Forschungsgebiet ist, aber unter vielen anderen Umständen können falsche Behauptungen aufgestellt werden, indem angenommen wird, dass Korrelation gleich Kausalität ist. Im Fall von Chancen und Wahrscheinlichkeiten kann eines in das andere umgewandelt werden, sodass das einzige Risiko darin besteht, Ihre Wetten falsch zu verstehen.
Antoni Parellada
3
@Mehrdad Der Punkt über die Gewinnchancen ist interessant, aber ich denke, es ist komplizierter als man denkt. Wenn Laien über Gewinnchancen sprechen, meinen sie normalerweise Gewinnchancen, und diese werden sehr oft im Format "Gewinnchancen gegen" ausgedrückt. In dem System, mit dem die meisten Menschen vertraut sind, ist ein hoher Wert für die Gewinnchancen mit einer geringen Wahrscheinlichkeit verbunden, während für einen Statistiker hohe Gewinnchancen mit einer hohen Wahrscheinlichkeit verbunden sind. Dies ist daher ziemlich verwirrend: Siehe auch unseren Beitrag zu Odds Made Simple
Silverfish,
5
Es ist wahrscheinlich erwähnenswert, dass einige dieser Begriffe in der englischen Sprache (mit loser Bedeutung) vor der Aneignung durch Statistiken und strengen technischen Definitionen vorbestanden. Es ist ein wenig kondensierend, das Wort zu nehmen, die Bedeutung zu ändern und dann andere für die falsche Verwendung zu beschuldigen, wenn sie es nur mit der älteren, nicht technischen Definition verwenden.
RM
Ich mag es wirklich nicht, Tests "post hoc" zu nennen, auch wenn sie im Voraus geplant sind. Ich denke, dass dies mit einem Statistikpaket begann, aber es ist jetzt allgegenwärtig.
David Lane

Antworten:

101

Es kann sinnlos sein, gegen Sprachverschiebungen anzukämpfen. Aber

Parameter bedeutet nicht Variable

In der klassischen Statistik, die in diesem Fall genau mit RA Fisher beginnt, der den Begriff zuerst mit dieser Bedeutung verwendete, ist ein Parameter eine unbekannte zu schätzende Konstante, beispielsweise ein Populationsmittelwert oder eine Korrelation. In der Mathematik gibt es verwandte, aber nicht identische Bedeutungen, wie wenn eine Kurve parametrisch angegeben wird. In vielen Wissenschaften ist Parameter nur ein anderes Wort für ein Maß (selbst ein Begriff mit dichter mathematischer Bedeutung), eine Eigenschaft oder Variable, beispielsweise Länge oder Leitfähigkeit oder Porosität oder Tugend. Natürlich ist die Länge oder Tugend eines Individuums unbekannt, bevor es gemessen wird. Aber statistisch denkende Menschen können durch die Verwendung für eine Reihe solcher Messungen amüsiert werden. Im gewöhnlichen oder vulgären Sprachgebrauch Parameter(fast immer im Plural) bedeutet häufig die Grenzen von etwas, etwa eine persönliche Beziehung oder eine politische Politik, die möglicherweise aus einer ursprünglichen Verwechslung mit dem Perimeter herrührt . Mit hoher Wahrscheinlichkeit ist davon auszugehen, dass die Bayesianer für sich selbst sprechen werden (dankbares Nicken an @conjugateprior).

schief bedeutet nicht voreingenommen

Seit einem Jahrhundert oder mehr bezieht sich die Schiefe statistisch gesehen auf die Asymmetrie von Verteilungen, ob grafisch bewertet, numerisch gemessen oder theoretisch als Glaubens- oder Hoffnungssache angenommen. Man kann sich vorstellen, dass Voreingenommenheit für viel längere Zeit bedeutet, im Durchschnitt falsch zu sein, was - sofern wir die Wahrheit kennen, dh einen wahren oder korrekten Wert - als systematischer Fehler quantifiziert werden kann. In der gewöhnlichen Sprache verzerrt zu sein, hat den allgemeinen Sinn, verzerrt oder verzerrt zu sein und somit falsch, falsch und damit auch voreingenommen zu sein. Dieser Sinn hat (soweit ich bemerkt habe, erst vor kurzem) begonnen, sich wieder auf statistische Diskussionen zu beschränken, so dass die ursprüngliche Bedeutung von Schiefe in gewisser Weise in Gefahr ist, verschwommen oder untergetaucht zu sein.

Korrelation bedeutet nicht Übereinstimmung

Die Korrelation hat in der Statistik mehrere präzise Sinne angezogen, die gemeinsam die Vorstellung einer in gewissem Sinne perfekten bivariaten Beziehung haben: Die Hauptfälle sind lineare und monotone Beziehungen. Es wird oft verwässert, selbst in statistischen Diskussionen, um fast jede Art von Beziehung oder Assoziation zu bedeuten. Was Korrelation nicht unbedingt bedeutet, ist Übereinstimmung: impliziert Pearson-Korrelation von oder , solange , aber Übereinstimmung erfordert die sehr strenge Bedingung .y=a+bx11b0y=xa=0,b=1

einzigartig heißt nicht verschieden

Es ist durchaus üblich, die unterschiedlichen Werte von Daten als eindeutig zu bezeichnen , aber eindeutig ist idealerweise noch besser als einmalige Bedeutung zu erhalten. Ich vermute, dass ein Teil der Schuld auf das Unix-Dienstprogramm uniqund seine Nachahmer zurückzuführen ist, die möglicherweise wiederholte Werte auf eine Menge reduzieren, in der jeder Wert wirklich einzigartig ist. Die Verwendung dieser Vermutung führt die Eingabe und Ausgabe eines Programms zusammen. (Wenn wir dagegen von Duplikaten in Daten sprechen , beschränken wir uns selten auf Dubletten , die genau zweimal vorkommen. Der Begriff repliziertwäre sprachlich sinnvoller, wurde jedoch für die absichtliche Replikation von Kontrollen in Experimenten vorgezogen; Die sich ergebenden Antwortwerte sind normalerweise überhaupt nicht identisch, worauf es ankommt.)

Proben werden selten wiederholt

In der Statistik enthält eine Stichprobe mehrere Werte, und die wiederholte Stichprobe ist eine hohe theoretische Tugend, die jedoch nur selten praktiziert wird, außer durch Simulation, wie wir sie für jede Art von Fälschung in Silico gebräuchlich haben . In vielen Wissenschaften ist eine Probe ein einzelnes Objekt, das aus einem Klumpen, einem Stück Wasser, Erde, Sediment, Gestein, Blut, Gewebe oder anderen Substanzen besteht, die von attraktiv über harmlos bis ekelhaft variieren. Bei weitem nicht außergewöhnlich, kann die Entnahme vieler Proben für eine ernsthafte Analyse unerlässlich sein. Hier macht die Terminologie eines jeden Fachgebiets für seine Mitarbeiter Sinn, aber manchmal ist eine Übersetzung erforderlich.

fehler bedeutet normalerweise nicht fehler; Wie Harold Jeffreys betonte, ist der primäre Sinn unberechenbar, nicht falsch.

Trotzdem sollten wir uns vor unseren eigenen Sünden oder Eigenheiten in der Terminologie hüten:

Regression geht nicht rückwärts

stationär bedeutet nicht unbeweglich oder fest

Vertrauen hat nichts mit dem mentalen oder psychischen Zustand eines Menschen zu tun

bedeutung hat nur manchmal eine alltägliche bedeutung

exact ist oft ein ehrenwerter Begriff, der sich eher auf eine bequem nachvollziehbare Lösung oder Berechnung bezieht als auf eine dem Problem entsprechende

Verteilungen, die nach rechts verschoben sind , sehen für viele nach links verschoben aus und umgekehrt

Das Lognormal wird so genannt, weil es ein potenziertes Normal ist

aber das lognormal ist normaler als das normale

Der Gaußsche wurde von De Moivre entdeckt

Poisson hat den Poisson nicht entdeckt , geschweige denn die Poisson-Regression

der bootstrap hilft dir nicht mit deinen schuhen

das jackknife schneidet nicht

Kurtosis ist keine Erkrankung

Stängel-Blatt-Parzellen beziehen sich nicht auf Pflanzen

Eine Dummy-Variable ist nützlich, nicht sinnlos oder dumm

Wer auf der Erde (oder irgendwo anders) glaubt, dass Heteroskedastizität ein besserer Begriff ist als ungleiche Variabilität ?

robust hat jetzt mindestens zwei wichtige technische Bedeutungen für verschiedene Gruppen, von denen keine seine häufige Verwendung, auch in technischen Diskussionen, hemmt, um nur etwas wie "behauptet, sich gut zu verhalten" zu bedeuten

IV hat jetzt mindestens zwei Hauptbedeutungen für verschiedene Gruppen

Faktor hat jetzt mindestens zwei Hauptbedeutungen für verschiedene Gruppen

normalisieren und standardisieren haben unzählige Bedeutungen (da müssen wir wirklich standardisieren)

gegen einen Graphen beschreibt , bedeutet vertikale variable gegen horizontalen Variable , wenn sie nicht das Gegenteil bedeuten ,

und (last but not least, um eine Phrase zu prägen) Statistik hat mindestens drei Hauptbedeutungen.

Anmerkungen:

  1. Trotz gegenteiliger Erscheinungen halte ich dies für eine gute, ernste Frage.

  2. Die Mode wechselt. Bis weit in das 20. Jahrhundert hinein scheinen viele Menschen (keine Namen, kein Pack-Drill, aber Karl Pearson könnte erwähnt werden) Begriffe nur erfinden zu können, indem sie nach ihren griechischen und lateinischen Wörterbüchern greifen. (Es wäre unfair, ihm keine Anerkennung für die Streudiagramme zu geben .) Aber RA Fisher hat viele vorbestehende englische Wörter entführt, einschließlich Varianz , Suffizienz , Effizienz und Wahrscheinlichkeit . In jüngerer Zeit war JW Tukey ein Meister im Umgang mit häuslichen Begriffen, aber nur wenige sollten Bedrängnis empfinden, die Sploms und Badmandments nicht erreichten.

  3. Ein Kommentar basiert auf der Erinnerung an "Das Leben ist [...] eher multiplikativ als additiv: Die logarithmische Normalverteilung ist normaler als normal." Anon. 1962. Bloggins Arbeitsregeln. In Good, IJ (Hrsg.) Der Wissenschaftler spekuliert: eine Anthologie von teilweise gebackenen Ideen. London: Heinemann, 212-213 (Zitat auf S.213).

Nick Cox
quelle
Kommentare sind nicht für eine längere Diskussion gedacht. Diese Unterhaltung wurde in den Chat verschoben .
whuber
Heteroskedastizität rockt die Katzenkiste total ! "Ungleiche Variabilität?" [Phuagh!]) (+1 ansonsten sehr gut;)
Alexis
1
Es kann erwähnenswert sein, dass Regressionstests häufig im Zusammenhang mit der Softwareentwicklung verwendet werden, wo im Großen und Ganzen von einem Rückschritt die
Konrad
@Konrad Interessant, aber dann (korrigiere mich, wenn ich mich irre) (a) das wäre kein Missbrauch des Wortes und (b) das Wort dort hat keinen statistischen Sinn.
Nick Cox
@ NickCox Richtig.
Konrad
33

Einige der Dinge, denen ich begegne:

  1. Behandeln des Signifikanzniveaus und der Wahrscheinlichkeiten der CI-Abdeckung als austauschbar, sodass die Leute am Ende Dinge tun, wie etwa von "95% Signifikanz" zu sprechen.

    [Was schlimmer ist, ist, wenn Leute, die solche Fehler machen, auf ihre Vorlesungsunterlagen - oder sogar auf ihr Lehrbuch - verweisen, um dies zu unterstützen; Mit anderen Worten, der Fehler ist nicht ihr Fehler, sondern wird hundert- oder vieltausendfach verschärft. Schlimmer noch, selbst wenn sie ihn richtig verstehen, müssen sie den Fehler möglicherweise wiederholen, um das Thema zu bestehen.]

  2. Es gibt auch eine allgemeine Tendenz zu glauben, dass "Signifikanz" irgendwie außerhalb einer bestimmten Hypothese / Frage existiert (was zu Fragen wie "Sind meine Daten signifikant" führt, ohne dass klar ist, welche Frage behandelt werden soll). [Ein verwandtes Problem ist "Welchen Test soll ich für diese Daten verwenden?" Als ob es die Daten wären - und nicht die zu beantwortende Frage -, ist dies der Treiber der Wahl der Analyse. (Während sich das "Design" der Studie auf die verwendeten spezifischen Tests auswirken kann, ist die Frage des Interesses wichtiger - zum Beispiel, wenn Sie drei Gruppen zur Verfügung haben, Ihre Frage des Interesses sich jedoch nur auf einen Vergleich von zwei von ihnen bezieht Die Tatsache, dass Sie drei haben, zwingt Sie nicht zu einer einseitigen Typanalyse, sondern zu einem direkten Vergleich der beiden Gruppen von Interesse ... Solange Ihre Wahl der Analyse nicht von dem ableitet, was die Daten anzeigen. Im Idealfall planen Sie Ihre Fragen und Analysen, bevor Sie Daten haben, anstatt Daten zu analysieren und zu sehen, welche Stöcke es Post-hoc-Analysefragen zu geben scheinen - einschließlich "Welchen Test soll ich für diese Daten verwenden?" - neigen dazu, zu führen.)

  3. Eine gelegentliche Tendenz, das Komplement des p-Wertes als eine Art "Vertrauen" oder "Wahrscheinlichkeit" der Alternative zu bezeichnen.

  4. "nichtparametrische Daten"; Ein weiterer, der leider in einigen Büchern zu finden ist (und leider in einem Artikel, der behauptet, einen häufigen Fehler zu korrigieren), taucht so oft auf, dass er in meiner kurzen Liste der automatisch generierten Kommentare (beginnend mit "Daten sind weder parametrisch noch nichtparametrisch; das sind Adjektive, die sich auf Modelle oder Techniken beziehen ... ") (danke Nick Cox, der mich an diesen speziellen Bugbear erinnert hat)

    Normalerweise sind "nicht normale Daten" gemeint, aber parametrisch impliziert nicht normal, und eine ungefähre Normalität impliziert nicht, dass wir parametrische Prozeduren benötigen. Ebenso bedeutet Nicht-Normalität nicht, dass wir nicht-parametrische Prozeduren benötigen. Gelegentlich sind "Ordnungsdaten" oder "Nenndaten" gemeint, aber dies impliziert in keinem Fall, dass endlich parametrische Modelle ungeeignet sind.

  5. Eine häufige Tendenz, die Bedeutung von "linear" im "linearen Modell" auf eine Weise zu missverstehen, die mit der Verwendung des Begriffs "linear" im "verallgemeinerten linearen Modell" unvereinbar wäre. Dies liegt zum Teil an der Art und Weise, wie wir Terminologie verwenden.

  6. die Mittelwert-Minus-Median-Art der Schiefe mit der Schiefe des dritten Moments in Verbindung zu bringen und eine Null in einem (oder sogar beiden) mit der Symmetrie in Verbindung zu bringen. Beide Fehler kommen häufig in grundlegenden Texten vor, die in bestimmten Anwendungsbereichen häufig verwendet werden. [Es liegt ein verwandter Fehler vor, wenn Null-Schräglage und Null-Überschuss-Kurtosis als Normalität angesehen werden.]

  7. Dieses ist so verbreitet, dass es immer schwieriger wird, es als Fehler zu bezeichnen (was zum Teil auf die Bemühungen eines bestimmten Programms zurückzuführen ist) - überschüssige Kurtosis wird einfach als "Kurtosis" bezeichnet. Ein Fehler, der garantiert zu Kommunikationsproblemen führt.

Glen_b
quelle
2
+1. Ich möchte Sie an die grotesken "nicht-parametrischen Daten" erinnern, die besser in diese Liste gehören als in meine. Die überschüssige Kurtosis ist ein hässliches Geschwisterchen der groben Kurtosis.
Nick Cox
@ Nick Danke, ich habe hier gesessen und auf meine Liste gestarrt. Das ist der eine.
Glen_b
3
Ein anderer ist der so weit verbreitete "statistische Test", dass sich die Frage stellt: Welchen Test soll ich auf meine Daten anwenden? oft im Glauben, dass es eine einzige Antwort der Form "Student's t", "Mann-Whitney" oder "Chi-Quadrat" geben wird. Auf die ich normalerweise antworte, vielleicht gar keine, oder wir müssen uns Ihre Daten genau ansehen und besprechen, was Ihre eigentliche Frage ist, bevor wir darüber nachdenken können.
Nick Cox
@nick Das hängt eng mit meinem Punkt 2 zusammen. Ich frage mich, ob es einen guten Weg gibt, diesen zu erweitern.
Glen_b
1
Ich befürchte, dass viele statistische Texte ein solches Denken anregen.
Nick Cox
31

" Daten " ist Plural . (Der Singular ist "Datum").

Gung
quelle
2
Sprechen Sie wirklich über ein Datum? Normalerweise dieser Punkt ... dieser Wert ... diese Beobachtung ... zumindest in etwa.
Nick Cox
5
Data ist auch ein einzigartiger Android, der Daten über Menschen aufnimmt, die er beobachtet, um zu datengetriebenen Datenschlussfolgerungen zu kommen, oft mit humoristischem Effekt.
Matthew Drury
2
Man müsste einen langen Weg zurücklegen, um das zu hören.
Nick Cox
5
Für mehrere Daten ist nicht nur die Übereinstimmung des Verbs erforderlich - "Daten sind" statt "Daten sind", sondern auch der Quantifizierer - "viele Daten" statt "viele Daten", "weniger Daten" statt "weniger Daten". So wenige Menschen schaffen es, konsequent zu sein, dass es sich um eine verlorene Sache zu handeln scheint.
Scortchi
5
Trotz jahrelanger (und jahrzehntelanger) Kämpfe (meine Lateinlehrer würden sich freuen) bin ich zu einer ähnlichen Ansicht wie bei @ Scortchi gekommen. Aber ich versuche , das Wort zu verwenden , Daten - Set , wo möglich, insbesondere durch StataCorp Praktiken beeinflusst. Das löst einige der Schwierigkeiten.
Nick Cox
14

Obwohl es sich nicht ausschließlich um einen statistischen Begriff handelt, stimme ich dafür, die Endogenität aufzugeben . Es wird verwendet, um sich auf alles zu beziehen, von der umgekehrten Kausalität über die Verwechslung bis hin zur Auswahl und Kollidierung, wenn alle Leute wirklich sagen wollen: "Dieser Effekt ist nicht identifiziert".

Conjugateprior
quelle
Kommentare sind nicht für eine längere Diskussion gedacht. Diese Unterhaltung wurde in den Chat verschoben .
Glen_b
13

"Regression zum Mittelwert" bedeutet nicht, dass, wenn wir eine bestimmte Anzahl von iid-Proben unter dem erwarteten Wert beobachtet haben, die nächsten iid-Proben wahrscheinlich über dem erwarteten Wert liegen.

Benjamin Lindqvist
quelle
3
+1 Das ist wichtig. Bemerkenswerte Leute waren außerordentlich verwirrt. Zum Beispiel Peter Bernsteins populäres Buch über Risikoanalyse, Gegen die Götter . charakterisiert die Regression zum Mittelwert auf viele verschiedene Arten - keine einzige davon ist richtig.
Whuber
10

Prozent vs. Prozentpunkte : Wenn sich etwas von 1% auf 2% erhöht, wird es um 100% erhöht. Oder: Sie können sagen, dass es um 1 Prozentpunkt gestiegen ist.

Die Aussage, dass der Anstieg 1% betrug, ist sehr irreführend.

SPhadler
quelle
7

Ich finde Abkürzungen, die nicht eindeutig angegeben sind, sind ein echtes Problem. Zum Beispiel sehe ich Dinge wie GLM und nirgendwo ist angegeben, ob dies ein allgemeines lineares Modell oder ein verallgemeinertes lineares Modell bedeutet. Einmal kann man normalerweise herausfinden, worauf man sich bezieht, nachdem man sich in den Kontext eingearbeitet hat, aber ich finde das besonders problematisch für Schüler, die gerade erst anfangen, sich mit statistischen Modellen zu beschäftigen.

Ein weiteres Beispiel hierfür ist IV. Bedeutet dies instrumentelle Variable oder unabhängige Variable? Oft wird das erst klar, wenn Sie den Kontext untersuchen.

Etwas anderes, bei dem ich Verwirrung sehe, sind "Moderator" und "Interaktion". Auch die Bevölkerung (wie die Gesamtbevölkerung) und die interessierende Bevölkerung scheinen neue Studenten zu verwirren, es sei denn, dies wird sehr deutlich.

StatsStudent
quelle
5
Ich habe auch gesehen, dass GLM von einigen in der Menge des maschinellen Lernens als "globale lineare Modelle" bezeichnet wurde. Nur um die Verwirrung über einen bereits überlasteten Begriff
hinzuzufügen
1
Ich unterstütze diese Antwort / Beobachtung teilweise. Ich denke, "Verallgemeinert" (was auch immer es ist) sollte besser mit Gz abgekürzt werden, nicht mit G. Wie GzLM (verallgemeinertes lineares Modell).
TTNPHNS
2
@ttnphns: Einige von uns schreiben verallgemeinert mit einem s
Henry
Ich bin gespannt, @ttnphns, welchen Teil dieser Antwort unterstützen Sie nicht und warum? Es ist gut möglich, dass ich etwas falsch verstehe. Ich würde gerne mehr darüber erfahren, wenn Sie etwas weiter zu bieten haben. Vielen Dank!
StatsStudent
1
Huh, ich dachte, IV ist in vitro gemeint. = P
Mehrdad
7

Eine, die in der Alltagssprache üblich ist:

Durchschnittlich

Für die durchschnittliche Person da draußen (bittere Ironie voll und ganz beabsichtigt) scheinen der Mittelwert, der Median, der Modus und der erwartete Wert von allem gleich zu sein. Sie neigen von Natur aus dazu, eine Punktschätzung durchzuführen, wobei sie unbewusst und unangreifbar davon ausgehen, dass eine zugrunde liegende Normalverteilung vorliegt. Und die ebenso unbewusste Annahme einer sehr kleinen Varianz. Der Glaube, dass eine solche Schätzung 1) existiert und 2) für sie sehr nützlich sein wird, weil sie sie als einen praktisch sicheren Prädiktor ansehen können, ist so tief verwurzelt, dass es im Grunde unmöglich ist, sie anders zu überzeugen.

Versuchen Sie als Beispiel aus der Praxis, mit einem Koch zu sprechen, der fragt: "Was ist die durchschnittliche Kartoffelgröße?". Wenn Sie ihm eine Zahl mitteilen, kann er diese für jedes Rezept verwenden, das eine Zahl angibt von Kartoffeln, und haben es jedes Mal perfekt herauskommen. Und ärgere dich, dass du versuchst, ihm zu sagen, dass es keine solche Nummer gibt. Leider passiert es in Situationen, in denen viel mehr auf dem Spiel steht als bei der Zubereitung von Suppen.

rumtscho
quelle
3
Ich finde das etwas übertrieben. Zum Beispiel scheinen Millionen, wenn nicht Milliarden von Menschen, kaum Schwierigkeiten mit Durchschnittswerten im Sport zu haben.
Nick Cox
1
@ NickCox es ist sicherlich kontextabhängig. Insbesondere die Berechnung eines arithmetischen Mittels für gegebene Daten ist unproblematisch. Ich habe die Schwierigkeiten speziell in den von mir beschriebenen Fällen gesehen, in denen sie eine Punktschätzung benötigen und davon ausgehen, dass der "Durchschnitt" sehr genau ist. Sie gehen auch davon aus, dass dieser "Durchschnitt" als Mittelwert berechnet wird. Wenn Sie sie jedoch bitten, zu erklären, was sie mit Durchschnitt meinen, beschreiben sie grob einen Modus.
Rumtscho
@rumtscho, du hast recht. Joe Average kann dazu neigen, den Durchschnitt als den Modus oder als typisch zu betrachten.
Mark L. Stone
Wenn Leute über "durchschnittliche" Immobilienpreise in Großbritannien sprechen, können sie mir nicht sagen, welche Art von Durchschnitt sie verwenden oder ob Gliederungslinien ausgeschlossen wurden.
Ian Ringrose
1
Es gibt nichts, was besagt, dass Mittelwerte für multimodale Verteilungen nicht berechnet werden können. Es ist nur so oft, dass es nicht das beste Maß für die Beschreibung der Verteilung ist. Ich bin mir auch nicht sicher, ob es für das Image der Statistiker großartig ist, allen zu sagen: "Sie wissen nicht, was der Wortdurchschnitt bedeutet!" und wenn sie dann auf eine Wörterbuchdefinition zeigen, antworten wir: "Nun, das Wörterbuch auch nicht!"
Cliff AB
7

Kurtosis misst nicht "Peakedness".

Z4|Z||Z|

* 3 abziehen oder nicht; es macht keinen Unterschied zu diesem Punkt.

Peter Westfall
quelle
1
ZZ
1
Ich hatte einen griechisch-zypriotischen Statistikprofessor, der uns lehrte, dass Leptokurtisch auf Griechisch "schmalschultrig" oder "bucklig" bedeutet. So hat eine leptokurtische Verteilung (z. B. ein Laplace oder ein Doppelexponent ) in ihren "Schulter" -Bereichen weniger Masse als das Gaußsche (von gleicher Varianz) - und dementsprechend mehr Masse in den Kopf- und Schwanzbereichen. Umgekehrt hat eine platykurtische Verteilung (z. B. die Uniform) mehr Masse in den Schultern und weniger Masse im Kopf- und Schwanzbereich als normal.
Mico
2
Gute Erklärung der Wörter, aber in Wirklichkeit haben sie nichts mit der Kurtosis-Statistik zu tun, die Pearson entwickelt hat. Pearson hatte es falsch gemacht, aber indem er diese phantastisch klingenden griechischen Wörter verwendete, ließ er andere glauben, er sei auf etwas Tiefgründiges fixiert. Leider hat sein Fehler über 100 Jahre lang der statistischen Bildung und Alphabetisierung geschadet. In meinem Artikel finden Sie spitze ("Lepto") Verteilungen, bei denen die Kurtosis klein ist, und flache ("platy") Verteilungen, bei denen die Kurtosis nahezu unendlich ist. Pearson's Kurtosis sagt nichts über "Lepto" oder "Platy" aus. ncbi.nlm.nih.gov/pmc/articles/PMC4321753
Peter Westfall
5

Linear bedeutet:

  • y=a+bxy=a+bx+cx2y=axb

  • y=ea+bx1+ea+bxy=a+bx+xmax(xθ,0)

  • Linear bedeutet das Gegenteil von dynamisch . Wie auch immer eine abhängige Variable eine Funktion ist, ist sie keine Funktion ihrer eigenen vorherigen Werte. In dieser Hinsicht bedeutet nichtlinear Dinge wie und .y t - y t - 1 = a + b ( y t - 1 - x t - x ) + c ( x t - x t - 1 ) + d x t - 1yt=a+byt1+cxytyt1=a+b(yt1xtx)+c(xtxt1)+dxt1

Wobei eine abhängige Variable ist, eine unabhängige Variable ist und und Parameter in allen obigen Beispielen sind.x ein , b , c , d θyxa,b,c,dθ

Alexis
quelle
5

Die Frage betraf die Verwendung statistischer Begriffe, deren Korrektur wir BEACHTEN sollten. Ich habe die Verwendung des Begriffs "Zufall" durch meine tausendjährigen Kinder korrigiert, um Dinge zu bezeichnen, die seit 10 Jahren das Gegenteil von "Zufall" sind. In Anbetracht dessen, wie viele meiner Auszubildenden Schwierigkeiten haben, eine zufällige Datenstichprobe zu erstellen, die tatsächlich zufällig ist, was bereits vor dieser Verwendung des Wortes geschehen ist, ist die Verschleierung dieses Begriffs in der Alltagssprache eine Krise.

Aus dem OnlineSlangDictionary:

Definition of random


random

adjective
  • unerwartet und überraschend.
    All of the sudden this guy jumped out from behind the bushes, it was so random!
    The street cleaner never comes down our street. How random.
    
  • unerwartet großartig.
    The party was totally random.
    
SASmom
quelle
4

Es gibt bereits zu viele großartige Beispiele von Glen und Nick ... nicht mehr viel übrig!

Einige Aspekte der Regression

  • Fehlerbedingung und Residuum (es ist etwas komisch, wenn die Leute stolz sind, dass ihre Residuen nicht mit den Regressoren korreliert sind)

  • Vorhersage und Schätzung (Sollen wir überhaupt aufhören zu unterscheiden, wenn es um die vorhergesagten zufälligen Effekte geht?)

  • Vorhersage / Prognoseintervall versus Konfidenzintervall. Ich denke, es gibt eine Wahrscheinlichkeit> 0,5, um die falsche zu zitieren.

  • Regressor (Spalte in der Entwurfsmatrix) versus Kovariable et al. Insbesondere in technischen Situationen, in denen die Unterscheidung wichtig ist, neigen viele Menschen (auch ich) dazu, ungenau zu sein.

Michael M
quelle
Entschuldigung ich bin verwirrt. Gibt es einen Unterschied zwischen Vorhersage und Schätzung? Können Sie noch mehr zu Ihren letzten beiden Punkten sagen? Vielen Dank!
Yuqian
3

Insbesondere in Versicherungsumgebungen ist es üblich, Varianz zu verwenden, um sich auf jede Art von Differenz zu beziehen, und nicht auf den Mittelwert der quadrierten Differenzen zwischen jedem Datenpunkt und dem Mittelwert des Datensatzes.

Klarinettist
quelle
6
Auch ich bin auf Varianz gestoßen, die in diesem anderen Sinne verwendet wurde, aber beachte, dass Varianz ein existierendes englisches Wort war, als RA Fisher sie 1918 zu diesem Zweck entführte. statistische Personen können nicht das Eigentum an der wahren Bedeutung beanspruchen.
Nick Cox
3

Bayesian

Schüler, die es lernen, haben möglicherweise keine Probleme damit, Ihnen zu sagen, ob etwas bayesisch "aussieht". Bitten Sie sie jedoch, ein Problem mit einem frequentistischen und einem bayesischen Ansatz zu lösen, und sie werden wahrscheinlich scheitern.

Meiner Erfahrung nach wird den Schülern beigebracht, dass es sich nur um einen philosophischen Unterschied handelt. Kein konkretes Beispiel zeigt, dass dasselbe Problem mit beiden Ansätzen angegriffen wird.

Fragen Sie sie nun, warum jemand in seinem Beispiel einen häufigeren Ansatz verfolgt. Die beste Erklärung dafür ist wahrscheinlich "Früher gab es keine Computer ..."

Mehrdad
quelle
Könnten Sie uns Ihre Erklärung mitteilen, warum jemand einen häufigeren Ansatz verfolgt? Vielen Dank!
Yuqian
4
@yuqian: Ja. Für mich ist es wichtig, dass Sie es tun, wenn Sie möchten, dass die Menschen Ihnen objektiv zustimmen. Bayes'sche Ansätze erfordern vorherige Verteilungen, die von Natur aus subjektiv sind, und bei Problemen in der realen Welt gibt es keine objektiv korrekte Prioritätsverteilung. Bei einem frequentistischen Ansatz gibt es keine solchen Unklarheiten, und das ermöglicht es Ihnen, Ihre Ergebnisse objektiv mit denen anderer zu vergleichen.
Mehrdad
2

Risiko

Risiko bedeutet nicht Wahrscheinlichkeit

Das Risiko ist die Summe der Kosten aller Ergebnisse, wobei jede dieser Kosten mit der Wahrscheinlichkeit ihres Eintretens multipliziert wird.

Das Risiko wird in der Regel gegen die Belohnung abgewogen. Dies ist der Gewinn, den wir anstreben.

Hier ist ein Beispiel: Wie tödlich ist Ihr Kilowatt . Hier werden die Risiken - Anzahl der Toten für verschiedene Energiequellen - gegen die von diesen Energiequellen produzierten Ertragsstunden abgewogen.

Zum Beispiel: Das Risiko von Atomkraft ist nicht die Wahrscheinlichkeit eines Zusammenbruchs. es ist die Wahrscheinlichkeit , dass ein Zusammenbruch passieren wird, durch die Anzahl der Personen multipliziert , die daran sterben, mit summierten mit der Zahl der Menschen , die durch die Wahrscheinlichkeit von normalen Operationen sterben multipliziert , die Operationen normal bleiben.

Michael Karnerfors
quelle
4
"Risiko" hat keine allgemein anerkannte Standarddefinition. "Die Summe der Kosten [Verluste] aller Ergebnisse, jeder dieser Kosten [Verluste] multipliziert mit der Wahrscheinlichkeit ihres Eintretens" ist jedoch die Definition der erwarteten Kosten [Verluste]. Das Risiko bezieht sich im Allgemeinen auf (nachteilige) Abweichungen vom erwarteten Verlust. Ihre Definition ist also Erwartung, während sich typische Risikodefinitionen meiner Meinung nach mit Streuung befassen.
A. Webb
Wenn wir beispielsweise eine Versicherung abschließen, besteht der Zweck darin, das Risiko zu verringern (die Auswirkungen unwahrscheinlicher Ereignisse zu verringern), aber die tatsächlich erwarteten Kosten sind für den Versicherten höher, wobei die Differenz die Kosten und Gewinne des Versicherers sind. Die extremen Verluste im Heck wurden gegen stabilere Kosten der Prämie eingetauscht.
A. Webb
3
@ A.Webb Das FWIW, die (internationale) Gesellschaft für Risikoanalyse, definiert Risiko als "das Potenzial zur Realisierung unerwünschter, nachteiliger Folgen für das Leben, die Gesundheit, das Eigentum oder die Umwelt; die Abschätzung des Risikos basiert normalerweise auf dem erwarteten Wert von die bedingte Eintrittswahrscheinlichkeit des Ereignisses multipliziert mit der Konsequenz des Ereignisses, sofern es eingetreten ist. " Das Risiko scheint also eine Standarddefinition zu haben - und es zeigt, dass Sie zu Recht unterscheiden können, wie das Risiko geschätzt oder gemessen werden könnte.
Whuber
1
Risiko, wie es von Epidemiologen verwendet wird, bedeutet auch die Rate, mit der die Wahrscheinlichkeit eines Ereignisses eintritt , oder . P(A)/t
Alexis
2

Fixe Effekte und zufällige Effekte können für verschiedene Personen unterschiedliche Bedeutungen haben. In der Ökonometrie sind feste Effekte zufällig, und wenn Sie darüber nachdenken, ist jeder Effekt in der Statistik zufällig. Wenn Sie also etwas Zufälliges benennen, erhalten Sie keine aussagekräftigen zusätzlichen Informationen.

mpiktas
quelle