Warum dividieren wir bei der Berechnung der Stichprobenkorrelation durch ?

9

Ich verstehe die Gründe für die Division durch bei der Berechnung der Stichprobenvarianz, dh wenn wir durch dividieren, erhalten wir eine Schätzung der Populationsvarianz, die voreingenommen ist, um zu niedrig zu sein.n1n

Buglear (2013, S. 57) erklärt die Pearson-Korrelation:

Wir dividieren aus dem gleichen Grund wie bei der Berechnung der Standardabweichungen der Stichproben durch - dies gibt uns einen besseren Schätzer für das Populationsäquivalent.n1

[Buglear, J. (2013). Praktische Statistik: Ein Handbuch für Geschäftsprojekte . Kogan Page Publishers]

Ich verstehe jedoch nicht, warum dies auch für Korrelationen gilt. Warum würde die Division durch den Populationskorrelationskoeffizienten unterschätzen?n

user1205901 - Monica wiederherstellen
quelle
1
Wenn ich Pearson-Korrelationen berechne, teile ich die Zähler- und Nennerterme unabhängig von der Stichprobengröße immer durch . Es funktioniert genauso gut wie beide durch teilen und ist einfacher zu merken :-). 17n1
whuber

Antworten:

9

Wir brauchen die Bessel-Korrektur "-1" zu wenn wir die Korrelation berechnen, daher denke ich, dass das zitierte Stück falsch ist. Lassen Sie mich zunächst feststellen, dass wir die meiste Zeit das empirische oder das der Stichprobe berechnen und verwenden , um sowohl die Stichprobe (die Statistik) als auch die Population (die Parameterschätzung) zu beschreiben. Dies unterscheidet sich von Varianz- und Kovarianzkoeffizienten, bei denen normalerweise die Bessel-Korrektur eingeführt wird, um zwischen der Statistik und der Schätzung zu unterscheiden.nrr

Betrachten Sie also empirische . Es ist die Kosinusähnlichkeit der zentrierten Variablen ( und beide zentriert): . Beachten Sie, dass diese Formel weder noch . Wir müssen die Stichprobengröße nicht kennen, um zu erhalten .rXYr=XcYcXc2Yc2nn1r

Andererseits ist dasselbe auch die Kovarianz der z-standardisierten Variablen ( und beide zentriert und dann durch ihre jeweiligen Standardabweichungen und ): . Ich nehme an, dass Sie in Ihrer Frage von dieser Formel sprechen. Diese Bessel-Korrektur im Nenner, die in der Formel der Kovarianz genannt wird, um die Schätzung zu entschärfen, dient in dieser spezifischen Formel zur Berechnung von paradoxerweise dazu, die Entfaltungskorrektur "rückgängig zu machen". Tat daran, dass undrXYσxσyr=XzYzn1rσx2σy2wurde unter Verwendung des Nenners , der Bessel-Korrektur, berechnet . Wenn in der zweiten Formel von Sie Abroller und , das zeigt , wie sie berechnet wurden aus und mit denen „n-1“ -Basis Standardabweichungen finden Sie heraus , dass alle „n-1“ Begriffe einander aufheben von der Formel, und Sie bleiben am Ende mit der obigen Kosinusformel! Das "n-1" in der "Kovarianzformel" von wurde einfach benötigt, um das ältere verwendete "n-1" auszuziehen.n1rXzYzXcYcr

Wenn wir es vorziehen, diese und basierend auf dem Nenner (anstelle von ) zu berechnen, die Formel für noch denselben Korrelationswert . Hier dient dazu, das ältere "n" analog zu entfernen.σx2σy2nn1r=XzYznn

Wir brauchten also im Nenner, um denselben Nenner in den Varianzformeln aufzuheben. Oder benötigt aus demselben Grund, falls die Abweichungen als voreingenommene Schätzungen berechnet wurden. Empirisches basiert selbst nicht auf den Informationen der Stichprobengröße.n1nr

Für eine bessere Bevölkerungsschätzung von als das empirische benötigen wir zwar Korrekturen, aber es gibt verschiedene Ansätze und viele verschiedene alternative Formeln, und sie verwenden unterschiedliche Korrekturen, normalerweise nicht .ρrn1

ttnphns
quelle
Die Standarddefinition des Stichprobenkorrelationskoeffizienten ist, dass die Stichproben-Kovarianz durch das Produkt zweier Stichproben-Standardabweichungen geteilt wird. Sie haben mehrere äquivalente Formeln angegeben, aber nicht genau diese. Natürlich ist der (oder ) -Faktor sowohl im Nominator als auch im Nenner, also wird er aufgehoben, wie Sie richtig sagen. n1n
Amöbe
@amoeba, danke für den fürsorglichen Kommentar. Ich habe in der aktuellen Antwort nicht speziell auf die "Standard" -Formel und darauf, dass sie (offensichtlich) nach Substitutionen auf die Formel des Kosinus Ich hatte ein anderes Ziel. r=cov/σxσy
ttnphns
Übrigens mag ich die Wörter "Stichproben-Kovarianz" und "Stichproben-Korrelation", die irreführende Argot, nicht und verwende sie normalerweise nicht. Ich würde es vorziehen, "unvoreingenommene Kovarianzschätzung" und "empirischen Korrelationswert" zu sagen.
ttnphns
Ich bin mir nicht sicher, ob ich Ihren Kommentar zur Terminologie verstehe. Soweit ich weiß, ist die "Stichproben-Kovarianz" (sie kann voreingenommen oder unvoreingenommen sein oder auf andere Weise geschätzt werden) der "Populations-Kovarianz" entgegengesetzt. "Stichproben-Kovarianz" ist also eine Schätzung der "Populations-Kovarianz". Warum ist das irreführend?
Amöbe
Es (mit df = „N-1“) irreführend, da es verstanden werden kann , als „die Kovarianz dieser Probe “, während in der Tat diese Statistik die „unbiased ist Schätzung der Bevölkerung Kovarianz“ von dieser Probe gegeben. Es gibt zwei Ansichten einer Stichprobenstatistik: Entweder wird nur die Stichprobengesamtheit charakterisiert, oder es wird eine mögliche Schätzung der Gesamtpopulation vorgenommen. (Co) Varianz basierend auf df = n kann sowohl als "die Stichprobe" als auch als "Schätzung für die Population" bezeichnet werden. Die auf df = n-1 kann jedoch kaum als "die Probe" bezeichnet werden - die Bessel-Korrektur wurde speziell eingeführt, um eine "Schätzung" vorzunehmen.
ttnphns