Warum haben einige Statistiksymbole ein "Quadrat", z. B. Varianz , "R Quadrat" oder Erblichkeit

7

In der Statistik stoße ich manchmal auf Symbole, deren Symbol ein "Quadrat" trägt. In anderen Bereichen, wie zum Beispiel der Mechanik, geben Sie die Menge an, die Sie für einen normalen Buchstaben interessiert, und definieren dann Ihre Formeln, sodass Sie sie neu anordnen können, bis die Menge, an der Sie interessiert sind, als normaler Buchstabe auf der linken Seite von steht die Formel. Ein Beispiel ist die Position nach Bewegung für eine Zeit und eine Geschwindigkeit :xtv

x=vt

In der Statistik befinden sich jedoch manchmal quadratische Mengen auf der linken Seite, da dies für die weitere Interpretation der Ergebnisse verwendet wird:

  1. Die Varianz einer Zufallsvariablen mit dem Erwartungswert E [X] = µ :σX2XE[X]=µ

    σX2=E[(Xµ)2]

    Hier steht eine quadratische Entität auf der linken Seite der Formel.

  2. Der Bestimmungskoeffizient R2 , der von Statistikern sogar immer nur als "R im Quadrat" bezeichnet wird. Warum gibst du ihm keinen "normalen" Brief, wenn er so oft verwendet wird?

  3. Die Erblichkeit ist ein Maß, das in der Genetik angewendet wird, wenn das Ausmaß der Variation, die aus der Umwelt stammt, gegenüber dem Ausmaß der Variation, das aus der Genetik stammt, in ein Verhältnis gebracht werden soll. Ein quantitatives Merkmal P (z. B. Wachstumshöhe) wird in Abhängigkeit von Genotypeffekt G und Umwelteffekt E (alle Zufallsvariablen) wie folgt modelliert :

    P=G+E

    Weitsichtige Erblichkeit ist definiert [src]H2H2=Var(G)/Var(P)

    Niemand interessiert sich jemals für , nur .HH2

Was ist der Sinn dieser Konvention? Was sagt es Statistikern? Oder gibt es mehrere unabhängige Ursachen?

akraf
quelle
5
Wenn Sie möchten, können Sie die Standardabweichung anstelle der Varianz angeben. Siehe stats.stackexchange.com/questions/118/… und stats.stackexchange.com/questions/83347/… Es gibt keine Magie in Quadraten, nur einige quadratische Werte sind sinnvoll und es ist schön, damit zu arbeiten. Außerdem ist es direkter, zu haben, als zB so dass Sie sich daran erinnern müssen, dass ...σ2ξ=σ2ξ=σ
Tim
6
Die Notation ist eher ein Zweig der Etikette als der Logik und hat sich chaotisch entwickelt, wie engagierte Geschichten zeigen. Die Verwendung einer möglichst geringen Notation ist ein klares Kriterium, zumal bequeme Alphabete bereits überladen sind (mussten Sie jemals mit Wahrscheinlichkeit, Anzahl der Prädiktoren und Werten in derselben Diskussion ringen ?). Historisch gesehen ging die Korrelation der Erkenntnis voraus, dass sein Quadrat nützlich und interessant war; Auch die Betonung der Varianz (meistens) folgte der Betonung der Standardabweichung oder eines Vielfachen davon. In diesen Fällen war es also sinnvoll, einem vorhandenen Symbol ein Quadrat hinzuzufügen. P
Nick Cox

Antworten:

6

Während wir vielleicht die vielen verschiedenen Formeln analysieren, die wir in der Statistik finden, und sehen, dass zweite Momente einen besonderen Platz haben ...

... vielleicht ein spezieller Platz in der Statistik als in der Physik (die auch Platz Begriffe der Einfachheit halber auch gelegentlich verwendet, zum Beispiel ‚Gyrationsradius‘ . Und auch einen Begriff wie ‚ Moment der Trägheit‘ ist weder ein völlig vereinfachten Begriff und enthält Herkunfts es Moment wie statistisch ihren Ursprung enthalten Platz . Hinzu kommt, Physiker wie Einfachheit wie , während Statistiker, gut) ...rg2=h2π

Die Gründe für diese Verwendung von quadratischen Begriffen (z. B. die leicht als eine "Konstante" anstelle von , wenn Sie nehmen es aus den Klammern) kann aus historischen Gründen leichter gefunden werden .(xσ)2σ2σ


h2 undR2

Über die Antwort von Nick Cox auf diese frühere Lebenslauffrage Wer ist der Schöpfer oder Erfinder des Bestimmungskoeffizienten (R-Quadrat)? wir sehen, dass die Geschichte einen großen Einfluss auf diesen Begriff hatte. Und dies gilt nicht nur für , der Begriff wird von derselben Person "erfunden". Sehen Sie sich einfach eine Artikelsuche bei Google an:R2h2

https://scholar.google.com/scholar?q="degree+of+determination"&as_ylo=1918&as_yhi=1924

Sie sehen, dass Sewall Wright bei den ersten Beschreibungen des Konzepts des "Grads der Entschlossenheit" viel getan hat. Er drückte es sowohl als auch als Quadrat von etwas anderem aus 1) Korrelationskoeffizienten und 2) Vererbung oder einen äquivalenten Korrelationskoeffizienten (siehe eine frühere Quelle als von Nick Cox erwähnt: Wright 1920 ) .R2h2Rh

In einem Artikel wie Mordecai Ezekiel 1929 Bedeutung und Bedeutung von Korrelationskoeffizienten sehen Sie, dass Menschen für eine beträchtliche Zeit alle Arten von Ausdrücken mit dem Korrelationskoeffizienten verwendeten (im spezifischen Beispielartikel: , , , ) abgesehen von , was die explizite Notation von wichtig machte (die Physik bietet diese Wahlfreiheit nicht, wo wir überlegen müssen, welche Art von Moment, erster, zweiter, dritter oder eine Funktion davon oder etwas anderes wie der Median ist am besten, um eine bestimmte Verteilung oder Situation zu beschreiben .r2r1r211r2r2r2

In der wunderbaren Übersicht von Wright 1934 schlägt er " die Methode der Pfadkoeffizienten " vor

"Der quadratische Pfadkoeffizient kann dementsprechend als Bestimmungskoeffizient bezeichnet werden. Solche Koeffizienten wurden verwendet, bevor der Begriff Pfadkoeffizient auf die Quadratwurzel angewendet wurde."

obwohl die Leute weiterhin die quadratische Definition verwendeten. Wahrscheinlich war diese 'Methode der Pfadkoeffizienten' nicht sehr beliebt, denn wer lehrt / lernt dies heutzutage und welcher andere Statistik-Guru hat diese Definitionen verwendet?

In dieser Übersicht von Wright aus dem Jahr 1934 finden Sie auch einen Verweis auf einen Artikel aus dem Jahr 1918, in dem er Quadrate von Korrelationskoeffizienten verwendet, aber noch keinen Begriff im Zusammenhang mit "Bestimmung".


σ2

Dieser Begriff wird sehr oft nicht als solcher verwendet. Und stattdessen wird es verwendet

  • ohne das Quadrat auf der linken Seite der Gleichungσ=E[(Xμ)2]
  • oder durch den Begriff "Varianz" ersetzt. Ein typischer Ausdruck ist .Var(X)

    Ein weiterer vorhandener Ausdruck ist (in älteren Texten weit verbreitet). Der Index gibt die Reihenfolge des Augenblicks an. Also ist (oder besser ) der erste rohe Moment oder der Mittelwert, der Index 2 bedeutet den zweiten Moment (Varianz im Fall des zentralen zweiten Moments), der Index 3 bedeutet den dritten Moment , .... , uswμ2μ1=μμ1=μ

    (Ein Problem mit diesem Symbol ist, dass unklar ist, um welchen Punkt der Moment, z. B. zentral oder roh, definiert ist, selbst wenn vs existiert, um zwischen roh und zentral zu unterscheiden. Das Symbol für Mittelwert hat tatsächlich das gleiche Problem, obwohl es sehr Standard geworden ist, so dass die Mehrdeutigkeit in den meisten Fällen nicht so relevant ist)μ2μμμ

Nun, dieser große Text unter diesem Artikel erklärt ein wenig, warum für viele Wissenschaftler und Statistiker möglicherweise einfacher ist. Auch wie bei und gibt es einen historischen Ursprung. Interessante liest:σ2h2R2

  • Pearson 1894 Beiträge zur mathematischen Evolutionstheorie, in der die Standardabweichung irgendwann tatsächlich alsσ=μ2
  • Airy 1861 (der einen Buchstaben anstelle von und den Beschreibungsfehler des mittleren Quadrats verwendet , aber auch mit verschiedenen, nicht quadratischen Konzepten den mittleren Fehler und den wahrscheinlichen Fehler vergleicht )cσ
  • Fisher untersucht 1920 den Unterschied zwischen und dem unbekannten , das entweder durch den ersten zentralen Moment "mittleren Fehler" oder den zweiten zentralen Moment "mittleren quadratischen Fehler" geschätzt wird.σ1σ2σ
  • Laut Wikipedia (19. Oktober 2017) verwendete Fisher zuerst den Begriff "Varianz".

    "Bei der Analyse der Variabilitätsursachen ist es daher wünschenswert, das Quadrat der Standardabweichung als Maß für die Variabilität zu verwenden. Wir werden diese Größe als Varianz bezeichnen."

    Wenn Sie den Artikel lesen, sehen Sie, dass er die Varianz häufig auf die linke Seite der Gleichung setzt und sie mit einem Buchstaben . Die Verwendung eines Buchstabens ist heutzutage in Arbeiten zur mathematischen Statistik noch immer üblich. In diesem Artikel verwendet er oft , aber das ist der Einfachheit halber. Stellen Sie sich den Satz von Fermat vor, der mit einem Term wie anstelle von . Auf diese Weise wird durch die Einfachheit der Gleichungen die Verwendung von verstärkt. Beachten Sie, dass das Ersetzen von durch nicht immer sinnvoll ist. Manchmal möchte man angeben, dass es sich bei der Berechnung umVVσ2c=an+bnncn=an+bnσ2σ2Vσ2. Zum Beispiel ist die Gleichung 1 im Artikel 1918 klarer als , wenn das , worum es geht, explizit in die Gleichung geschrieben wird.σ2=a2V=a2σ

  • Vor Fisher wird die Variabilität erwähnt : 1916 beschreibt James Johstone ( DIE MATHEMATISCHE THEORIE DER ORGANISCHEN VARIABILITÄT ) ein Konzept der Variabilität in Bezug auf die Gaußsche Verteilung. In Bezug auf die ‚Abweichung im Quadrat‘ oder ‚quadratische Abweichung‘ finden Sie mehrere frühere Quellen finden. Eine interessante Referenz unter den frühen Verwendungen der "quadratischen Abweichung" ist Francis Ysidro Edgeworth (1917), der in einer Fußnote von "Fluktuation" anstelle von " spricht .σ2

Sextus Empiricus
quelle
1

IeS Erblichkeit bezeichnet ist , weil die Menschen (nicht sicher , wer aber sehe Felsenstein, 2016, Kap. IX, Problem 7) zunächst das Symbol eingeführt für die Korrelation zwischen dem additiven genetischen Effekt und dem Phänotyp , Wenn die additive Komponente und der Phänotyph2hxz=x+e

h=corr(x,z)=Cov(x,z)Var(x)Var(z)=Cov(x,x+e)Var(x)Var(z)=Var(x)Var(x)Var(z)=Var(x)Var(z)
xzist gemeinsam binormal, dann wird die Steigung der Regression der additiven genetischen Komponente oder des Zuchtwerts auf den Phänotyp (die Erblichkeit, die die Reaktion auf die in der Züchtergleichung auftretende Selektion bestimmt) zu .xz
βx|z=Cov(x,y)Var(z)=Var(x)Var(z)=h2.
Jarle Tufto
quelle