Ich verstehe die Gründe für die Division durch bei der Berechnung der Stichprobenvarianz, dh wenn wir durch dividieren, erhalten wir eine Schätzung der Populationsvarianz, die voreingenommen ist, um zu niedrig zu sein.
Buglear (2013, S. 57) erklärt die Pearson-Korrelation:
Wir dividieren aus dem gleichen Grund wie bei der Berechnung der Standardabweichungen der Stichproben durch - dies gibt uns einen besseren Schätzer für das Populationsäquivalent.
[Buglear, J. (2013). Praktische Statistik: Ein Handbuch für Geschäftsprojekte . Kogan Page Publishers]
Ich verstehe jedoch nicht, warum dies auch für Korrelationen gilt. Warum würde die Division durch den Populationskorrelationskoeffizienten unterschätzen?
correlation
covariance
bessels-correction
user1205901 - Monica wiederherstellen
quelle
quelle
Antworten:
Wir brauchen die Bessel-Korrektur "-1" zu wenn wir die Korrelation berechnen, daher denke ich, dass das zitierte Stück falsch ist. Lassen Sie mich zunächst feststellen, dass wir die meiste Zeit das empirische oder das der Stichprobe berechnen und verwenden , um sowohl die Stichprobe (die Statistik) als auch die Population (die Parameterschätzung) zu beschreiben. Dies unterscheidet sich von Varianz- und Kovarianzkoeffizienten, bei denen normalerweise die Bessel-Korrektur eingeführt wird, um zwischen der Statistik und der Schätzung zu unterscheiden.n r r
Betrachten Sie also empirische . Es ist die Kosinusähnlichkeit der zentrierten Variablen ( und beide zentriert): . Beachten Sie, dass diese Formel weder noch . Wir müssen die Stichprobengröße nicht kennen, um zu erhalten .r X Y r=∑XcYc∑X2c∑Y2c√ n n−1 r
Andererseits ist dasselbe auch die Kovarianz der z-standardisierten Variablen ( und beide zentriert und dann durch ihre jeweiligen Standardabweichungen und ): . Ich nehme an, dass Sie in Ihrer Frage von dieser Formel sprechen. Diese Bessel-Korrektur im Nenner, die in der Formel der Kovarianz genannt wird, um die Schätzung zu entschärfen, dient in dieser spezifischen Formel zur Berechnung von paradoxerweise dazu, die Entfaltungskorrektur "rückgängig zu machen". Tat daran, dass undr X Y σx σy r=∑XzYzn−1 r σ2x σ2y wurde unter Verwendung des Nenners , der Bessel-Korrektur, berechnet . Wenn in der zweiten Formel von Sie Abroller und , das zeigt , wie sie berechnet wurden aus und mit denen „n-1“ -Basis Standardabweichungen finden Sie heraus , dass alle „n-1“ Begriffe einander aufheben von der Formel, und Sie bleiben am Ende mit der obigen Kosinusformel! Das "n-1" in der "Kovarianzformel" von wurde einfach benötigt, um das ältere verwendete "n-1" auszuziehen.n−1 r Xz Yz Xc Yc r
Wenn wir es vorziehen, diese und basierend auf dem Nenner (anstelle von ) zu berechnen, die Formel für noch denselben Korrelationswert . Hier dient dazu, das ältere "n" analog zu entfernen.σ2x σ2y n n−1 r=∑XzYzn n
Wir brauchten also im Nenner, um denselben Nenner in den Varianzformeln aufzuheben. Oder benötigt aus demselben Grund, falls die Abweichungen als voreingenommene Schätzungen berechnet wurden. Empirisches basiert selbst nicht auf den Informationen der Stichprobengröße.n−1 n r
Für eine bessere Bevölkerungsschätzung von als das empirische benötigen wir zwar Korrekturen, aber es gibt verschiedene Ansätze und viele verschiedene alternative Formeln, und sie verwenden unterschiedliche Korrekturen, normalerweise nicht .ρ r n−1
quelle