Ich habe eine Stichprobe von 1.449 Datenpunkten, die nicht korreliert sind (r-Quadrat 0,006).
Bei der Analyse der Daten stellte ich fest, dass durch die Aufteilung der unabhängigen Variablenwerte in positive und negative Gruppen ein signifikanter Unterschied im Durchschnitt der abhängigen Variablen für jede Gruppe zu bestehen scheint.
Wenn die Punkte unter Verwendung der unabhängigen Variablenwerte in 10 Bins (Dezile) aufgeteilt werden, scheint eine stärkere Korrelation zwischen der Dezilzahl und den durchschnittlichen abhängigen Variablenwerten (r-Quadrat 0,27) zu bestehen.
Ich weiß nicht viel über Statistiken, daher hier einige Fragen:
- Ist dies ein gültiger statistischer Ansatz?
- Gibt es eine Methode, um die beste Anzahl von Behältern zu finden?
- Was ist der richtige Begriff für diesen Ansatz, damit ich ihn googeln kann?
- Was sind einige einführende Ressourcen, um mehr über diesen Ansatz zu erfahren?
- Welche anderen Ansätze kann ich verwenden, um Beziehungen in diesen Daten zu finden?
Hier sind die Dezildaten als Referenz: https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90
EDIT: Hier ist ein Bild der Daten:
Industry Momentum ist die unabhängige Variable, die Einstiegspunktqualität ist abhängig
quelle
Antworten:
0. Die Korrelation (0,0775) ist klein, unterscheidet sich aber (statistisch) signifikant von 0. Das heißt, es scheint wirklich eine Korrelation zu geben, sie ist nur sehr klein / schwach (äquivalent dazu gibt es viel Rauschen in der Beziehung).
1. Durch Mittelwertbildung innerhalb von Bins wird die Variation der Daten reduziert (der -Effekt für den Standardfehler eines Mittelwerts), was bedeutet, dass Sie die schwache Korrelation künstlich aufblasen. Siehe auch dieses (etwas) verwandte Problem .σ/n−−√
2. Sicher, weniger Bins bedeuten, dass mehr Daten gemittelt werden, wodurch das Rauschen reduziert wird. Je breiter sie sind, desto "unschärfer" wird der Durchschnitt in jedem Bin, da der Mittelwert nicht ganz konstant ist - es gibt einen Kompromiss. Während man eine Formel ableiten könnte, um die Korrelation unter der Annahme der Linearität und der Verteilung der zu optimieren , würde sie den etwas ausnutzbaren Effekt des Rauschens in den Daten nicht vollständig berücksichtigen. Der einfache Weg ist, einfach eine ganze Reihe verschiedener Behältergrenzen auszuprobieren, bis Sie das bekommen, was Ihnen gefällt. Vergessen Sie nicht, die Behälterbreiten und Behälterursprünge zu variieren. Diese Strategie kann sich bei Dichten gelegentlich als überraschend nützlich erweisen , und diese Art von gelegentlichem Vorteil kann auf funktionale Beziehungen übertragen werden - möglicherweise können Sie dies erreichenx genau das Ergebnis, auf das Sie gehofft haben .
3. Ja. Beginnen Sie möglicherweise mit dieser Suche und versuchen Sie es dann mit Synonymen.
4. Dies ist ein guter Anfang; Es ist ein sehr beliebtes Buch für Nicht-Statistiker.
5. (im Ernst :) Ich würde eine Glättung (z. B. über lokale Polynomregression / Kernelglättung) als eine Möglichkeit zur Untersuchung von Beziehungen vorschlagen. Es hängt genau davon ab, was Sie wollen, aber dies kann ein gültiger Ansatz sein, wenn Sie die Form einer Beziehung nicht kennen, solange Sie das Problem der Datenbaggerung vermeiden.
Es gibt ein beliebtes Zitat, dessen Urheber Ronald Coase zu sein scheint :
quelle
Vielleicht würden Sie von einem Erkundungsinstrument profitieren. Das Aufteilen der Daten in Dezile der x-Koordinate scheint in diesem Sinne durchgeführt worden zu sein. Mit den unten beschriebenen Modifikationen ist dies ein perfekter Ansatz.
Viele bivariate Erkundungsmethoden wurden erfunden. Ein einfacher Vorschlag von John Tukey ( EDA , Addison-Wesley 1977) ist seine "wandernde schematische Handlung". Sie schneiden die x-Koordinate in Bins, erstellen ein vertikales Boxplot der entsprechenden y-Daten am Median jedes Bins und verbinden die wichtigsten Teile der Boxplots (Mediane, Scharniere usw.) zu Kurven (optional glätten). Diese "wandernden Spuren" liefern ein Bild der bivariaten Verteilung der Daten und ermöglichen eine sofortige visuelle Beurteilung der Korrelation, der Linearität der Beziehung, der Ausreißer und der Randverteilungen sowie eine robuste Schätzung und Bewertung der Anpassungsgüte jeder nichtlinearen Regressionsfunktion .
Zu dieser Idee fügte Tukey im Einklang mit der Boxplot-Idee den Gedanken hinzu, dass eine gute Möglichkeit, die Verteilung von Daten zu untersuchen, darin besteht, in der Mitte zu beginnen und nach außen zu arbeiten und dabei die Datenmenge zu halbieren. Das heißt, die zu verwendenden Bins müssen nicht in Quantile mit gleichem Abstand geschnitten werden, sondern sollten stattdessen die Quantile an den Punkten und für widerspiegeln. . 1 - 2 - k k = 1 , 2 , 3 , …2−k 1−2−k k=1,2,3,…
Um die unterschiedlichen Bin-Populationen anzuzeigen, können wir die Breite jedes Boxplots proportional zur Datenmenge machen, die es darstellt.
Die resultierende schematische Darstellung würde ungefähr so aussehen. Daten, wie sie aus der Datenzusammenfassung entwickelt wurden, werden im Hintergrund als graue Punkte angezeigt. Darüber wurde die wandernde schematische Darstellung mit den fünf Farbspuren und den Boxplots (einschließlich aller gezeigten Ausreißer) in Schwarzweiß gezeichnet.
Die Art der Korrelation nahe Null wird sofort klar: Die Daten drehen sich um. In der Nähe ihres Zentrums, von bis , weisen sie eine starke positive Korrelation auf. Bei Extremwerten weisen diese Daten krummlinige Beziehungen auf, die insgesamt eher negativ sind. Der für diese Daten zufällig beträgt) liegt nahe bei Null. Das Beharren darauf, dies als "fast keine Korrelation" oder "signifikante, aber geringe Korrelation" zu interpretieren, wäre der gleiche Fehler, der im alten Witz über die Statistikerin gefälscht wurde, die mit ihrem Kopf im Ofen und den Füßen in der Kühlbox zufrieden war, weil im Durchschnitt die Die Temperatur war angenehm. Manchmal reicht eine einzelne Zahl einfach nicht aus, um die Situation zu beschreiben.x = 4 - 0,074x=−4 x=4 −0.074
Alternative Erkundungswerkzeuge mit ähnlichen Zwecken umfassen robuste Glättungen von Fensterquantilen der Daten und Anpassungen von Quantilregressionen unter Verwendung einer Reihe von Quantilen. Mit der sofortigen Verfügbarkeit von Software zur Durchführung dieser Berechnungen sind sie möglicherweise einfacher auszuführen als eine wandernde schematische Spur, aber sie genießen nicht die gleiche Einfachheit der Konstruktion, einfache Interpretation und breite Anwendbarkeit.
Der folgende
R
Code hat die Abbildung erstellt und kann ohne oder mit nur geringen Änderungen auf die Originaldaten angewendet werden. (Ignorieren Sie die Warnungen vonbplt
(aufgerufen vonbxp
): Es beschwert sich, wenn es keine Ausreißer zum Zeichnen gibt.)quelle
c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6)
, wird dieser generiert und ist datenabhängig (x
)? Sie erwähnen das,2^*(-k)
aber das hängt nicht zusammen.k <- 1:11; ifelse(quantile(g, seq(0,1,1/10))>0, 2^(-k), 1-2^(-k))
Ich glaube nicht, dass Binning ein wissenschaftlicher Ansatz für das Problem ist. Es ist Informationsverlust und willkürlich. Rank-Methoden (ordinal; semiparametrisch) sind weitaus besser und verlieren keine Informationen. Selbst wenn man sich für das Binning von Dezilen entscheiden sollte, ist die Methode für andere immer noch willkürlich und nicht reproduzierbar, einfach wegen der großen Anzahl von Definitionen, die für Quantile bei Bindungen in den Daten verwendet werden. Und wie in dem netten Kommentar zu Datenfolter oben erwähnt, hat Howard Wainer ein schönes Papier, das zeigt, wie man aus demselben Datensatz Behälter findet, die eine positive Assoziation erzeugen können, und Behälter, die eine negative Assoziation erzeugen können:
quelle
Das Aufteilen der Daten in Dezile basierend auf dem beobachteten X ("Einstiegspunktqualität") scheint eine Verallgemeinerung einer alten Methode zu sein, die zuerst von Wald und später von anderen für Situationen vorgeschlagen wurde, in denen sowohl X als auch Y fehlerbehaftet sind. (Wald teilte die Daten in zwei Gruppen auf. Nair & Shrivastava und Bartlett teilten sie in drei Gruppen auf.) Sie werden in Abschnitt 5C des Verständnisses der robusten und explorativen Datenanalyse beschrieben , herausgegeben von Hoaglin, Mosteller und Tukey (Wiley, 1983). Seitdem wurde jedoch viel an solchen "Messfehlern" oder "Fehlern in Variablenmodellen" gearbeitet. Die Lehrbücher, die ich mir angesehen habe, sind Messfehler: Modelle, Methoden und Anwendungen von John Buonaccorsi (CRC Press,
Ihre Situation kann etwas anders sein, da ich aufgrund Ihres Streudiagramms den Verdacht habe, dass beide Beobachtungen Zufallsvariablen sind und ich nicht weiß, ob sie jeweils Messfehler enthalten. Was repräsentieren die Variablen?
quelle
Ich fand das localgauss-Paket dafür sehr nützlich. https://cran.r-project.org/web/packages/localgauss/index.html
Das Paket enthält
Beispiel:
Ergebnis:
quelle