Ich habe einen Datensatz mit einer abhängigen und einer unabhängigen Variablen. Beide sind keine Zeitreihen. Ich habe 120 Beobachtungen. Der Korrelationskoeffizient beträgt 0,43
Nach dieser Berechnung habe ich für beide Variablen eine Spalte mit dem Durchschnitt für jeweils 12 Beobachtungen hinzugefügt, was zu 2 neuen Spalten mit 108 Beobachtungen (Paaren) führt. Der Korrelationskoeffizient dieser Spalten beträgt 0,77
Es scheint, dass ich die Korrelation auf diese Weise verbessert habe. Darf das gehen? Habe ich die Erklärungskraft der unabhängigen Variablen durch Verwendung von Durchschnittswerten erhöht?
regression
correlation
mean
predictor
cross-section
user2165379
quelle
quelle
Antworten:
Schauen wir uns zwei Vektoren an, den ersten
und der zweite Vektor ist
Berechnen Sie die Pearson-Korrelation, die Sie erhalten
Wenn Sie jedoch den Durchschnitt aufeinanderfolgender Paare für Werte nehmen, sind beide Vektoren identisch. Identische Vektoren haben Korrelation 1.
Dieses einfache Beispiel zeigt einen Nachteil Ihrer Methode.
Bearbeiten : Um es allgemeiner zu erklären: Der Korrelationskoeffizient wird folgendermaßen berechnet.
Die Mittelung einiger und einiger ändert die Unterschiede zwischen und sowie den Unterschied zwischen und .X. Y. X. μX. Y. μY.
quelle
Die Mittelung kann attraktiv oder bequem sein. Es kann auch eine Quelle der Täuschung sein, im schlimmsten Fall eine Täuschung. Gehen Sie also vorsichtig vor, auch wenn es eine klare Begründung für die Mittelwertbildung gibt.
Es gibt Situationen, in denen eine Mittelwertbildung sinnvoll sein kann. Wenn beispielsweise saisonale Schwankungen von geringem oder keinem Interesse sind, wird durch Mittelung in Jahreswerte ein reduzierter Datensatz erstellt, in dem Sie sich auf diese Jahreswerte konzentrieren können.
In verschiedenen Bereichen könnten Forscher an Korrelationen in ganz unterschiedlichen Maßstäben interessiert sein, z. B. zwischen Arbeitslosigkeit und Kriminalität für Einzelpersonen, Landkreise, Staaten und Länder (ersetzen Sie die Begriffe, die am sinnvollsten sind).
Das Interesse und oft auch eine Hauptursache für Inferenzprobleme besteht darin, zu interpretieren, was auf verschiedenen Ebenen oder Ebenen vor sich geht. Zum Beispiel bedeutet eine hohe Korrelation zwischen Arbeitslosenquote und Kriminalitätsrate in Gebieten nicht unbedingt, dass Arbeitslose eine höhere Tendenz haben, Kriminelle zu sein. Sie benötigen Daten zu Personen, um dies klar zu machen. Die Bereitstellung von Daten kann maximal umständlich sein, wenn Daten nur in der am wenigsten interessanten Größenordnung verfügbar sind, möglicherweise aus Gründen der Wirtschaftlichkeit oder der Vertraulichkeit.
Ich stelle auch fest, dass viele Messungen in erster Linie häufig über kleine Zeitintervalle und / oder kleine Raumintervalle gemittelt werden, so dass die Daten in jedem Fall oft gemittelt ankommen.
quelle