Ist es akzeptabel, Bin-Daten zu erstellen, den Mittelwert der Bins zu berechnen und dann den Pearson-Korrelationskoeffizienten auf der Grundlage dieser Mittelwerte abzuleiten? Es scheint mir ein etwas faul zu sein, wenn (wenn Sie sich die Daten als Bevölkerungsstichprobe vorstellen) die Streuung dieser Mittelwerte der Standardfehler des Mittelwerts ist und daher sehr eng, wenn groß ist. Sie erhalten also wahrscheinlich einen viel besseren Korrelationskoeffizienten als aus den Primärdaten, und das scheint falsch zu sein. Andererseits werden häufig Wiederholungsmessungen vor einer Korrelationsberechnung gemittelt, die nicht sehr unterschiedlich ist.
correlation
binning
James
quelle
quelle
Antworten:
Nicht genau das Gleiche wie Ihre Frage, aber ich erinnere mich, dass ich vor einiger Zeit einen Artikel gelesen habe (entweder The American Statistician oder Chance Magazine, irgendwann zwischen 2000 und 2003), der dies für jeden Datensatz von 2 Variablen zeigte, bei denen sie hübsch sind viel unkorreliert können Sie einen Weg finden, die "Prädiktor" -Variable zu binnen, dann den Durchschnitt der Antwortvariablen in jedem Bin zu nehmen und je nachdem, wie Sie das Binning durchführen, entweder eine positive Beziehung oder eine negative Beziehung in einer Tabelle oder einem einfachen Diagramm anzeigen.
quelle
Betrachten wir zwei Variablen ( , Y i ). Wenn Sie sagen, dass die Daten bin sind und Sie auf X i "bin" , meinen Sie damit, dass Sie die Messung für genau dasselbe X i wiederholen , um den entsprechenden Y ' i- Wert zu erhalten? Wenn Sie die Messung so wiederholen, verringert sich der Fehler im Durchschnitt mit √X.ich Y.ich X.ich X.ich Y.'ich , und ich denke, Sie können damit machen, was Sie wollen. Stellen Sie einfach sicher, dass Sie einen gewichteten Korrelationskoeffizienten verwenden, wenn Sie Datenpunkte mit sehr unterschiedlichen Fehlerbalken berücksichtigen.n- -- -√
Nehmen wir nun an, Sie wiederholen nicht die Messung von , sondern betrachten stattdessen X i ± δ und das entsprechende Y i ± δ ' und binning auf δ und erhalten Werte, die in δ gruppiert sind . Ich denke, in dieser Situation hängt die Lösung von der Beziehung zwischen der Größe des Behälters, dem Fehler bei der Messung und der Steigung der Korrelation ab. Ich gehe davon aus, dass die Situation ähnlich wie im vorherigen Absatz sein wird , wenn sowohl δ als auch δ ´ klein sind. Andernfalls kann es vorteilhaft sein, zu entsorgen oder nicht. es wird die Ergebnisse ändern, weil die cov ( X.X.ich X.ich± δ Y.ich± δ' δ δ δ δ´ , Y i , b i n ) wird sich von dem der nicht gruppierten Werte unterscheiden, aber ich denke, es ist immer noch gültig, dies zu tun. Ich denke, Sie brechen keine Annahme; Ich würde nur sicherstellen, dass dies vorteilhaft ist, und ich würde seine Bedeutung durch einen Permutationstest testen (um keine Annahmen über die Koeffizientenverteilung zu treffen).X.i , b i n Y.i , b i n
quelle
Der Hauptgrund für das Binieren von Daten besteht darin, die Möglichkeit einer nichtlinearen Beziehung zwischen den Variablen zu berücksichtigen. Die Pearson-Korrelation misst die Stärke der linearen Assoziation, sodass sie nicht gut funktioniert, wenn die Beziehung nichtlinear ist.
Es gibt offensichtlich viel bessere Möglichkeiten, um mit diesem Problem umzugehen, als das Binning. Beispielsweise könnten Sie ein nichtlineares oder lokales Regressionsmodell anpassen und die vorhergesagten und tatsächlichen Antwortwerte korrelieren (obwohl dies voraussetzt, dass ein Prädiktor-Antwort-Ansatz gültig ist, während die Korrelation symmetrisch ist). Binning ist nur eine Möglichkeit, das Problem der Nichtlinearität zu lösen, das Personen ohne statistischen Hintergrund oder statistische Tools verwenden könnten.
quelle