Dürfen Durchschnittswerte für einen Datensatz verwendet werden, um die Korrelation zu verbessern?

9

Ich habe einen Datensatz mit einer abhängigen und einer unabhängigen Variablen. Beide sind keine Zeitreihen. Ich habe 120 Beobachtungen. Der Korrelationskoeffizient beträgt 0,43

Nach dieser Berechnung habe ich für beide Variablen eine Spalte mit dem Durchschnitt für jeweils 12 Beobachtungen hinzugefügt, was zu 2 neuen Spalten mit 108 Beobachtungen (Paaren) führt. Der Korrelationskoeffizient dieser Spalten beträgt 0,77

Es scheint, dass ich die Korrelation auf diese Weise verbessert habe. Darf das gehen? Habe ich die Erklärungskraft der unabhängigen Variablen durch Verwendung von Durchschnittswerten erhöht?

user2165379
quelle
4
Sie haben die Daten lediglich durch einen Glättungsfilter geführt. Dies geschieht ständig in der Signalverarbeitung und ist vollkommen akzeptabel und normalerweise erforderlich, bevor die Daten überhaupt verwendet werden können. Es eliminiert das Rauschen, das bei elektronischen Messungen immer vorherrscht. Ob es für Ihr spezielles Problem akzeptabel ist, hängt jedoch von den Besonderheiten ab, die Sie erreichen möchten, und wahrscheinlich in hohem Maße davon, wie viel "Rauschen" im Vergleich zu "Qualität" in Ihren Daten enthalten ist. Ich habe gerade bemerkt, dass "Beide keine Zeitreihen sind", daher vermute ich, dass das, was Sie getan haben, bedeutungslos ist, weil das Ändern der Reihenfolge die Ergebnisse ändert
Dunk
Danke euch allen. Meine abhängige Variable ist eine Reihe von monatlichen Ergebnissen eines Wettsystems (diese Ergebnisse sind nicht miteinander verbunden). Die unabhängige Variable ist das Ergebnis eines von mir konstruierten Indikators. Dieser Indikator generiert eine Bewertung darüber, wie extrem die Bewertungen von Sportmatches in einem bestimmten Monat waren (diese Sportergebnisse sind nicht miteinander verbunden). Ich vermutete, dass das, was ich tat, bedeutungslos war, obwohl es mich überraschte, dass sich der Korrelationskoeffizient so stark verbesserte.
user2165379
2
Ich bin nicht sicher, aber ich denke, dass die Mittelung von Daten zu ähnlichen Ergebnissen führen würde. Ich würde denken, dass die Mittelung die Auswirkungen von Ausreißern verringert. Somit müsste sich die Korrelation verbessern. Ich wette zwar, dass ein Mathematiker gut ausgewählte Daten liefern kann, die den gegenteiligen Effekt verursachen würden, aber ich würde nicht erwarten, dass solche Daten in der realen Welt auftreten.
Dunk
Ich konnte nicht sehen, ob Sie angegeben haben, wofür diese Daten bestimmt sind. Im Allgemeinen empfiehlt es sich jedoch, bei der Präsentation Ihrer Daten für eine bestimmte Zielgruppe anzugeben, wie die Daten abgeleitet wurden.
Jon Milliken
3
Welche Korrelation sollen gemittelte Werte darstellen? Es ist sicherlich keine vernünftige Schätzung der Korrelation zwischen den ursprünglichen Variablen mehr.
Glen_b -Rate State Monica

Antworten:

15

Schauen wir uns zwei Vektoren an, den ersten

    2 6 2 6 2 6 2 6 2 6 2 6

und der zweite Vektor ist

   6 2 6 2 6 2 6 2 6 2 6 2

Berechnen Sie die Pearson-Korrelation, die Sie erhalten

cor(a,b)
[1] -1

Wenn Sie jedoch den Durchschnitt aufeinanderfolgender Paare für Werte nehmen, sind beide Vektoren identisch. Identische Vektoren haben Korrelation 1.

  4 4 4 4 4 4  

Dieses einfache Beispiel zeigt einen Nachteil Ihrer Methode.

Bearbeiten : Um es allgemeiner zu erklären: Der Korrelationskoeffizient wird folgendermaßen berechnet.

E.[(X.- -μX.)(Y.- -μY.)]]σX. σY.

Die Mittelung einiger und einiger ändert die Unterschiede zwischen und sowie den Unterschied zwischen und .X.Y.X.μX.Y.μY.

Ferdi
quelle
1
μσ
Vielen Dank. Bedeutet dies, dass meine Ergebnisse durch die Verwendung der Durchschnittswerte "aufgeblasen" oder geschmeichelt werden und es immer besser ist, die Beobachtungen ohne Mittelwertbildung zu verwenden?
user2165379
Zum Testen von Hypothesen sollten Sie sich die Daten selbst und nicht die Durchschnittswerte ansehen. In anderen Bereichen können beschreibende Statistiken ein nützliches Werkzeug sein. Sie sollten sich auch andere Maßnahmen deskriptiver Statistiken wie Quantile (insbesondere Median) und höhere (zentralisierte) Momente wie Varianz, Schiefe und Kurtosis ansehen. In unserem Fall ist dies jedoch nicht sinnvoll. Die Vektoren a und b haben dieselben Quantile, dieselben Momente und dieselben zentralisierten Momente.
Ferdi
1
Die Mittelung neigt dazu, die Korrelationen durch Entfernen der quasi-zufälligen Streuung zu erhöhen, aber eine ausreichend perverse Mittelung könnte die Korrelationen gegen Null drücken.
Nick Cox
Vielen Dank. Wenn also die Mittelwertbildung dazu neigt, die Korrelation im Allgemeinen zu erhöhen, bedeutet dies, dass es sich nicht um eine Verbesserung handelt? Oder ist es eine Verbesserung, weil die quasi zufällige Streuung entfernt wird?
user2165379
10

Die Mittelung kann attraktiv oder bequem sein. Es kann auch eine Quelle der Täuschung sein, im schlimmsten Fall eine Täuschung. Gehen Sie also vorsichtig vor, auch wenn es eine klare Begründung für die Mittelwertbildung gibt.

1

Es gibt Situationen, in denen eine Mittelwertbildung sinnvoll sein kann. Wenn beispielsweise saisonale Schwankungen von geringem oder keinem Interesse sind, wird durch Mittelung in Jahreswerte ein reduzierter Datensatz erstellt, in dem Sie sich auf diese Jahreswerte konzentrieren können.

In verschiedenen Bereichen könnten Forscher an Korrelationen in ganz unterschiedlichen Maßstäben interessiert sein, z. B. zwischen Arbeitslosigkeit und Kriminalität für Einzelpersonen, Landkreise, Staaten und Länder (ersetzen Sie die Begriffe, die am sinnvollsten sind).

Das Interesse und oft auch eine Hauptursache für Inferenzprobleme besteht darin, zu interpretieren, was auf verschiedenen Ebenen oder Ebenen vor sich geht. Zum Beispiel bedeutet eine hohe Korrelation zwischen Arbeitslosenquote und Kriminalitätsrate in Gebieten nicht unbedingt, dass Arbeitslose eine höhere Tendenz haben, Kriminelle zu sein. Sie benötigen Daten zu Personen, um dies klar zu machen. Die Bereitstellung von Daten kann maximal umständlich sein, wenn Daten nur in der am wenigsten interessanten Größenordnung verfügbar sind, möglicherweise aus Gründen der Wirtschaftlichkeit oder der Vertraulichkeit.

Ich stelle auch fest, dass viele Messungen in erster Linie häufig über kleine Zeitintervalle und / oder kleine Raumintervalle gemittelt werden, so dass die Daten in jedem Fall oft gemittelt ankommen.

Nick Cox
quelle
3
Ich stimme der Antwort von @ Ferdi zu und unterstreiche, dass es viele verschiedene Möglichkeiten zur Mittelwertbildung geben kann. Dies schafft eine zusätzliche Quelle der Unsicherheit. Die Schwierigkeit ist besonders akut bei der Aggregation kleiner Flächen zu größeren.
Nick Cox