Sind Binning-Daten vor der Pearson-Korrelation gültig?

8

Ist es akzeptabel, Bin-Daten zu erstellen, den Mittelwert der Bins zu berechnen und dann den Pearson-Korrelationskoeffizienten auf der Grundlage dieser Mittelwerte abzuleiten? Es scheint mir ein etwas faul zu sein, wenn (wenn Sie sich die Daten als Bevölkerungsstichprobe vorstellen) die Streuung dieser Mittelwerte der Standardfehler des Mittelwerts ist und daher sehr eng, wenn n groß ist. Sie erhalten also wahrscheinlich einen viel besseren Korrelationskoeffizienten als aus den Primärdaten, und das scheint falsch zu sein. Andererseits werden häufig Wiederholungsmessungen vor einer Korrelationsberechnung gemittelt, die nicht sehr unterschiedlich ist.

James
quelle
1
Was wäre der Zweck des Binning in diesem speziellen Fall?
Chl
2
Es gibt keinen offensichtlichen Grund, vor der Korrelation zu gruppieren, es sei denn, Sie sind direkt daran interessiert, die Beziehung zwischen gruppierten Variablen zu untersuchen.
Nick Cox
11
Das Zusammenfassen von Daten, die kontinuierlich sind, und das anschließende Berechnen einer Korrelation ist wie das Abschneiden Ihres Beins und das Erhalten von Krücken.
Peter Flom
2
Ich vermute, dass das Binning durchgeführt wurde, um die Korrelation besser aussehen zu lassen als in der Realität. Die Primärdaten ergaben eine schlechte Korrelation, aber wenn sie gruppiert und gemittelt wurden, sahen sie viel besser aus. Ich denke, da jeder Bin-Mittelwert einen winzigen Standardfehler aufweist (es gab Hunderte von Punkten in jedem Bin), ergeben die Mittelwerte eine scheinbar schöne Korrelation.
James
3
Warum dort aufhören? Mit nur zwei Bins erhalten Sie immer einen Korrelationskoeffizienten von % :-). Im Gegensatz dazu Wiederholungsmessungen gemittelt ist anders , weil es ein anderes Modell von Daten Verhalten und führt zu einer anderen Schlussfolgerung (über die Erwartungen der Replikate eher als die Replikate selbst) aufruft. 100
whuber

Antworten:

1

Nicht genau das Gleiche wie Ihre Frage, aber ich erinnere mich, dass ich vor einiger Zeit einen Artikel gelesen habe (entweder The American Statistician oder Chance Magazine, irgendwann zwischen 2000 und 2003), der dies für jeden Datensatz von 2 Variablen zeigte, bei denen sie hübsch sind viel unkorreliert können Sie einen Weg finden, die "Prädiktor" -Variable zu binnen, dann den Durchschnitt der Antwortvariablen in jedem Bin zu nehmen und je nachdem, wie Sie das Binning durchführen, entweder eine positive Beziehung oder eine negative Beziehung in einer Tabelle oder einem einfachen Diagramm anzeigen.

Greg Snow
quelle
3
Der ausgezeichnete Artikel, auf den Sie anspielen, ist @Article {wai06fin, author = {Wainer, Howard}, title = {Finden, was durch die unglückliche Zusammenfassung der Ergebnisse nicht vorhanden ist: {The} {Mendel} effect}, journal = {Chance}, Jahr = 2006, Volumen = 19, Nummer = 1, Seiten = {49-56}, Anmerkung = {kann Behälter finden, die entweder eine positive oder eine negative Assoziation ergeben; besonders relevant, wenn die Effekte gering sind; `` Mit vier Parametern kann ich passen ein Elefant; mit fünf kann ich es seinen Stamm wackeln lassen. '' - John von Neumann}}
Frank Harrell
@FrankHarrell, danke für den Hinweis, ich erinnerte mich an ein paar Jahre Pause.
Greg Snow
0

Betrachten wir zwei Variablen ( , Y i ). Wenn Sie sagen, dass die Daten bin sind und Sie auf X i "bin" , meinen Sie damit, dass Sie die Messung für genau dasselbe X i wiederholen , um den entsprechenden Y ' i- Wert zu erhalten? Wenn Sie die Messung so wiederholen, verringert sich der Fehler im Durchschnitt mit X.ichY.ichX.ichX.ichY.ich' , und ich denke, Sie können damit machen, was Sie wollen. Stellen Sie einfach sicher, dass Sie einen gewichteten Korrelationskoeffizienten verwenden, wenn Sie Datenpunkte mit sehr unterschiedlichen Fehlerbalken berücksichtigen.n

Nehmen wir nun an, Sie wiederholen nicht die Messung von , sondern betrachten stattdessen X i ± δ und das entsprechende Y i ± δ ' und binning auf δ und erhalten Werte, die in δ gruppiert sind . Ich denke, in dieser Situation hängt die Lösung von der Beziehung zwischen der Größe des Behälters, dem Fehler bei der Messung und der Steigung der Korrelation ab. Ich gehe davon aus, dass die Situation ähnlich wie im vorherigen Absatz sein wird , wenn sowohl δ als auch δ ´ klein sind. Andernfalls kann es vorteilhaft sein, zu entsorgen oder nicht. es wird die Ergebnisse ändern, weil die cov ( X.X.ichX.ich±δY.ich±δ'δδδδ´ , Y i , b i n ) wird sich von dem der nicht gruppierten Werte unterscheiden, aber ich denke, es ist immer noch gültig, dies zu tun. Ich denke, Sie brechen keine Annahme; Ich würde nur sicherstellen, dass dies vorteilhaft ist, und ich würde seine Bedeutung durch einen Permutationstest testen (um keine Annahmen über die Koeffizientenverteilung zu treffen).X.ich,bichnY.ich,bichn

pedrofigueira
quelle
3
Ich kann nur verstehen, was Sie geschrieben haben: Wenn jemand zu viel Zeit zur Verfügung hat und nur die Tageszeit vertreiben möchte, ist dies besser als Straßenkriminalität.
Frank Harrell
-1

Der Hauptgrund für das Binieren von Daten besteht darin, die Möglichkeit einer nichtlinearen Beziehung zwischen den Variablen zu berücksichtigen. Die Pearson-Korrelation misst die Stärke der linearen Assoziation, sodass sie nicht gut funktioniert, wenn die Beziehung nichtlinear ist.

Es gibt offensichtlich viel bessere Möglichkeiten, um mit diesem Problem umzugehen, als das Binning. Beispielsweise könnten Sie ein nichtlineares oder lokales Regressionsmodell anpassen und die vorhergesagten und tatsächlichen Antwortwerte korrelieren (obwohl dies voraussetzt, dass ein Prädiktor-Antwort-Ansatz gültig ist, während die Korrelation symmetrisch ist). Binning ist nur eine Möglichkeit, das Problem der Nichtlinearität zu lösen, das Personen ohne statistischen Hintergrund oder statistische Tools verwenden könnten.

Hong Ooi
quelle
3
Binning hat absolut nichts damit zu tun, eine nichtlineare Beziehung zu finden.
Frank Harrell