Ist die Verwendung von Dezilen zur Ermittlung der Korrelation ein statistisch gültiger Ansatz?

10

Ich habe eine Stichprobe von 1.449 Datenpunkten, die nicht korreliert sind (r-Quadrat 0,006).

Bei der Analyse der Daten stellte ich fest, dass durch die Aufteilung der unabhängigen Variablenwerte in positive und negative Gruppen ein signifikanter Unterschied im Durchschnitt der abhängigen Variablen für jede Gruppe zu bestehen scheint.

Wenn die Punkte unter Verwendung der unabhängigen Variablenwerte in 10 Bins (Dezile) aufgeteilt werden, scheint eine stärkere Korrelation zwischen der Dezilzahl und den durchschnittlichen abhängigen Variablenwerten (r-Quadrat 0,27) zu bestehen.

Ich weiß nicht viel über Statistiken, daher hier einige Fragen:

  1. Ist dies ein gültiger statistischer Ansatz?
  2. Gibt es eine Methode, um die beste Anzahl von Behältern zu finden?
  3. Was ist der richtige Begriff für diesen Ansatz, damit ich ihn googeln kann?
  4. Was sind einige einführende Ressourcen, um mehr über diesen Ansatz zu erfahren?
  5. Welche anderen Ansätze kann ich verwenden, um Beziehungen in diesen Daten zu finden?

Hier sind die Dezildaten als Referenz: https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90

EDIT: Hier ist ein Bild der Daten: Industry Momentum ist die unabhängige Variable, die Einstiegspunktqualität ist abhängig

Industry Momentum ist die unabhängige Variable, die Einstiegspunktqualität ist abhängig

B Sieben
quelle
Hoffentlich wird meine Antwort (insbesondere die Antworten 2-4) in dem Sinne verstanden, wie es beabsichtigt war.
Glen_b -State Monica
Wenn Sie eine Beziehungsform zwischen dem Unabhängigen und dem Abhängigen untersuchen möchten, ist dies eine gute Erkundungstechnik. Es kann Statistiker beleidigen, wird aber ständig in der Industrie eingesetzt (z. B. Kreditrisiko). Wenn Sie ein Vorhersagemodell erstellen, ist das Feature-Engineering wieder in Ordnung - wenn es an einem Trainingssatz durchgeführt wird, wird es ordnungsgemäß validiert.
B_Miner
Können Sie Ressourcen bereitstellen, um sicherzustellen, dass das Ergebnis "ordnungsgemäß validiert" ist?
B Seven
"nicht korreliert (r-Quadrat 0,006)" bedeutet, dass sie nicht linear korreliert sind. Vielleicht gibt es eine andere Korrelation. Haben aufgetragen Sie die Rohdaten (abhängig vs unabhängig)?
Emil Friedman
Ich habe die Daten geplottet, aber nicht daran gedacht, sie der Frage hinzuzufügen. Was für eine großartige Idee! Bitte sehen Sie die aktualisierte Frage.
B Seven

Antworten:

9

0. Die Korrelation (0,0775) ist klein, unterscheidet sich aber (statistisch) signifikant von 0. Das heißt, es scheint wirklich eine Korrelation zu geben, sie ist nur sehr klein / schwach (äquivalent dazu gibt es viel Rauschen in der Beziehung).

1. Durch Mittelwertbildung innerhalb von Bins wird die Variation der Daten reduziert (der -Effekt für den Standardfehler eines Mittelwerts), was bedeutet, dass Sie die schwache Korrelation künstlich aufblasen. Siehe auch dieses (etwas) verwandte Problem .σ/n

2. Sicher, weniger Bins bedeuten, dass mehr Daten gemittelt werden, wodurch das Rauschen reduziert wird. Je breiter sie sind, desto "unschärfer" wird der Durchschnitt in jedem Bin, da der Mittelwert nicht ganz konstant ist - es gibt einen Kompromiss. Während man eine Formel ableiten könnte, um die Korrelation unter der Annahme der Linearität und der Verteilung der zu optimieren , würde sie den etwas ausnutzbaren Effekt des Rauschens in den Daten nicht vollständig berücksichtigen. Der einfache Weg ist, einfach eine ganze Reihe verschiedener Behältergrenzen auszuprobieren, bis Sie das bekommen, was Ihnen gefällt. Vergessen Sie nicht, die Behälterbreiten und Behälterursprünge zu variieren. Diese Strategie kann sich bei Dichten gelegentlich als überraschend nützlich erweisen , und diese Art von gelegentlichem Vorteil kann auf funktionale Beziehungen übertragen werden - möglicherweise können Sie dies erreichenxgenau das Ergebnis, auf das Sie gehofft haben .

3. Ja. Beginnen Sie möglicherweise mit dieser Suche und versuchen Sie es dann mit Synonymen.

4. Dies ist ein guter Anfang; Es ist ein sehr beliebtes Buch für Nicht-Statistiker.

5. (im Ernst :) Ich würde eine Glättung (z. B. über lokale Polynomregression / Kernelglättung) als eine Möglichkeit zur Untersuchung von Beziehungen vorschlagen. Es hängt genau davon ab, was Sie wollen, aber dies kann ein gültiger Ansatz sein, wenn Sie die Form einer Beziehung nicht kennen, solange Sie das Problem der Datenbaggerung vermeiden.


Es gibt ein beliebtes Zitat, dessen Urheber Ronald Coase zu sein scheint :

"Wenn Sie die Daten genug quälen, wird die Natur immer gestehen."

Glen_b - Monica neu starten
quelle
Die Punkte 1 und 2 sind gute Erklärungen dafür, warum der Ansatz des OP kein gültiger statistischer Ansatz ist, obwohl es eine nützliche Heuristik ist, in Bezug auf Punkt 0 (schwache Korrelation) zu überzeugen.
Assad Ebrahim
9

Vielleicht würden Sie von einem Erkundungsinstrument profitieren. Das Aufteilen der Daten in Dezile der x-Koordinate scheint in diesem Sinne durchgeführt worden zu sein. Mit den unten beschriebenen Modifikationen ist dies ein perfekter Ansatz.

Viele bivariate Erkundungsmethoden wurden erfunden. Ein einfacher Vorschlag von John Tukey ( EDA , Addison-Wesley 1977) ist seine "wandernde schematische Handlung". Sie schneiden die x-Koordinate in Bins, erstellen ein vertikales Boxplot der entsprechenden y-Daten am Median jedes Bins und verbinden die wichtigsten Teile der Boxplots (Mediane, Scharniere usw.) zu Kurven (optional glätten). Diese "wandernden Spuren" liefern ein Bild der bivariaten Verteilung der Daten und ermöglichen eine sofortige visuelle Beurteilung der Korrelation, der Linearität der Beziehung, der Ausreißer und der Randverteilungen sowie eine robuste Schätzung und Bewertung der Anpassungsgüte jeder nichtlinearen Regressionsfunktion .

Zu dieser Idee fügte Tukey im Einklang mit der Boxplot-Idee den Gedanken hinzu, dass eine gute Möglichkeit, die Verteilung von Daten zu untersuchen, darin besteht, in der Mitte zu beginnen und nach außen zu arbeiten und dabei die Datenmenge zu halbieren. Das heißt, die zu verwendenden Bins müssen nicht in Quantile mit gleichem Abstand geschnitten werden, sondern sollten stattdessen die Quantile an den Punkten und für widerspiegeln. . 1 - 2 - k k = 1 , 2 , 3 , 2k12kk=1,2,3,

Um die unterschiedlichen Bin-Populationen anzuzeigen, können wir die Breite jedes Boxplots proportional zur Datenmenge machen, die es darstellt.

Die resultierende schematische Darstellung würde ungefähr so ​​aussehen. Daten, wie sie aus der Datenzusammenfassung entwickelt wurden, werden im Hintergrund als graue Punkte angezeigt. Darüber wurde die wandernde schematische Darstellung mit den fünf Farbspuren und den Boxplots (einschließlich aller gezeigten Ausreißer) in Schwarzweiß gezeichnet.

Zahl

Die Art der Korrelation nahe Null wird sofort klar: Die Daten drehen sich um. In der Nähe ihres Zentrums, von bis , weisen sie eine starke positive Korrelation auf. Bei Extremwerten weisen diese Daten krummlinige Beziehungen auf, die insgesamt eher negativ sind. Der für diese Daten zufällig beträgt) liegt nahe bei Null. Das Beharren darauf, dies als "fast keine Korrelation" oder "signifikante, aber geringe Korrelation" zu interpretieren, wäre der gleiche Fehler, der im alten Witz über die Statistikerin gefälscht wurde, die mit ihrem Kopf im Ofen und den Füßen in der Kühlbox zufrieden war, weil im Durchschnitt die Die Temperatur war angenehm. Manchmal reicht eine einzelne Zahl einfach nicht aus, um die Situation zu beschreiben.x = 4 - 0,074x=4x=40.074

Alternative Erkundungswerkzeuge mit ähnlichen Zwecken umfassen robuste Glättungen von Fensterquantilen der Daten und Anpassungen von Quantilregressionen unter Verwendung einer Reihe von Quantilen. Mit der sofortigen Verfügbarkeit von Software zur Durchführung dieser Berechnungen sind sie möglicherweise einfacher auszuführen als eine wandernde schematische Spur, aber sie genießen nicht die gleiche Einfachheit der Konstruktion, einfache Interpretation und breite Anwendbarkeit.


Der folgende RCode hat die Abbildung erstellt und kann ohne oder mit nur geringen Änderungen auf die Originaldaten angewendet werden. (Ignorieren Sie die Warnungen von bplt(aufgerufen von bxp): Es beschwert sich, wenn es keine Ausreißer zum Zeichnen gibt.)

#
# Data
#
set.seed(17)
n <- 1449
x <- sort(rnorm(n, 0, 4))
s <- spline(quantile(x, seq(0,1,1/10)), c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6),
            xout=x, method="natural")
#plot(s, type="l")
e <- rnorm(length(x), sd=1)
y <- s$y + e # ($ interferes with MathJax processing on SE)
#
# Calculations
#
q <- 2^(-(2:floor(log(n/10, 2))))
q <- c(rev(q), 1/2, 1-q)
n.bins <- length(q)+1
bins <- cut(x, quantile(x, probs = c(0,q,1)))
x.binmed <- by(x, bins, median)
x.bincount <- by(x, bins, length)
x.bincount.max <- max(x.bincount)
x.delta <- diff(range(x))
cor(x,y)
#
# Plot
#
par(mfrow=c(1,1))
b <- boxplot(y ~ bins, varwidth=TRUE, plot=FALSE)
plot(x,y, pch=19, col="#00000010", 
     main="Wandering schematic plot", xlab="X", ylab="Y")
for (i in 1:n.bins) {
  invisible(bxp(list(stats=b$stats[,i, drop=FALSE],
                     n=b$n[i],
                     conf=b$conf[,i, drop=FALSE],
                     out=b$out[b$group==i],
                     group=1,
                     names=b$names[i]), add=TRUE, 
                boxwex=2*x.delta*x.bincount[i]/x.bincount.max/n.bins, 
                at=x.binmed[i]))
}

colors <- hsv(seq(2/6, 1, 1/6), 3/4, 5/6)
temp <- sapply(1:5, function(i) lines(spline(x.binmed, b$stats[i,], 
                                             method="natural"), col=colors[i], lwd=2))
whuber
quelle
@EngrStudent Bitte lesen Sie den Text dieses Beitrags, bevor Sie den Code ausführen. Diese Warnung wird erwähnt und erklärt.
whuber
Ich verstehe nicht, woher dieser Vektor kommt c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6), wird dieser generiert und ist datenabhängig ( x)? Sie erwähnen das, 2^*(-k)aber das hängt nicht zusammen.
Maximilian
@Max Dieser Vektor generiert dieses spezielle Beispiel.
whuber
ok, aber wie haben Sie die Zahlen verarbeitet? Dies ist eindeutig falsch:k <- 1:11; ifelse(quantile(g, seq(0,1,1/10))>0, 2^(-k), 1-2^(-k))
Maximilian
@Max Ich kann nicht verstehen, was du mit "eindeutig falsch" meinen könntest. Sie können sich nicht auf meinen Code beziehen: Zur Überprüfung habe ich ihn erneut ausgeführt und er hat die Abbildung in jedem Detail reproduziert.
whuber
6

Ich glaube nicht, dass Binning ein wissenschaftlicher Ansatz für das Problem ist. Es ist Informationsverlust und willkürlich. Rank-Methoden (ordinal; semiparametrisch) sind weitaus besser und verlieren keine Informationen. Selbst wenn man sich für das Binning von Dezilen entscheiden sollte, ist die Methode für andere immer noch willkürlich und nicht reproduzierbar, einfach wegen der großen Anzahl von Definitionen, die für Quantile bei Bindungen in den Daten verwendet werden. Und wie in dem netten Kommentar zu Datenfolter oben erwähnt, hat Howard Wainer ein schönes Papier, das zeigt, wie man aus demselben Datensatz Behälter findet, die eine positive Assoziation erzeugen können, und Behälter, die eine negative Assoziation erzeugen können:

 @Article{wai06fin,
   author =          {Wainer, Howard},
   title =       {Finding what is not there through the unfortunate
    binning of results: {The} {Mendel} effect},
   journal =     {Chance},
   year =        2006,
   volume =      19,
   number =      1,
   pages =       {49-56},
   annote =      {can find bins that yield either positive or negative
    association;especially pertinent when effects are small;``With four
    parameters, I can fit an elephant; with five, I can make it wiggle its
    trunk.'' - John von Neumann}
 }
Frank Harrell
quelle
Das habe ich vermutet. Wenn Sie eine andere Anzahl von Behältern auswählen, können Sie die beste Korrelation finden, um zu zeigen, wonach gesucht wird. Die Ergebnisse wären jedoch nicht reproduzierbar oder wissenschaftlich gültig. Kennen Sie einführende Ressourcen zum Ranking?
B Seven
3
Dies scheint eine übermäßig extreme Position zu sein. Natürlich verlieren auch rangbasierte Methoden Informationen: Sie verwerfen alle Informationen über die tatsächlichen Werte. Die Frage, ob Informationsverlust ein Problem darstellt, hängt also davon ab, warum die Analyse durchgeführt wird. Wenn es um Entdeckung und Erforschung geht, können verschiedene geführte Formen des Binning gute Arbeit leisten, während das Ersetzen von allem durch Ränge wahrscheinlich die Beziehungen verdunkeln und verzerren würde. Wenn es sich um eine Bestätigung oder einen Hypothesentest handelt, sind Ihre Bemerkungen allgemeiner anwendbar und vertretbar.
whuber
2
Dem stimme ich nicht wirklich zu. Die Art der Informationen verloren durch rangbasierten Verfahren ist minimal (beispielsweise in dem Gaußschen Residuen Fall ist ), und in Bezug auf weitere Annahme beladenen Methoden können sie sammeln Informationen. Es ist nicht schwer, ein semiparametrisches Modell (z. B. ein proportionales Quotenmodell) zu verwenden, um den Mittelwert und die Quantile von zu schätzen . Informationsverlust ist fast immer eine schlechte Sache, sei es während der Erkundung (Sie könnten etwas Wichtiges verpassen) oder während der formalen Analyse (Verlust von Macht und Präzision und Willkür). Y| X.π3πY|X
Frank Harrell
2

Das Aufteilen der Daten in Dezile basierend auf dem beobachteten X ("Einstiegspunktqualität") scheint eine Verallgemeinerung einer alten Methode zu sein, die zuerst von Wald und später von anderen für Situationen vorgeschlagen wurde, in denen sowohl X als auch Y fehlerbehaftet sind. (Wald teilte die Daten in zwei Gruppen auf. Nair & Shrivastava und Bartlett teilten sie in drei Gruppen auf.) Sie werden in Abschnitt 5C des Verständnisses der robusten und explorativen Datenanalyse beschrieben , herausgegeben von Hoaglin, Mosteller und Tukey (Wiley, 1983). Seitdem wurde jedoch viel an solchen "Messfehlern" oder "Fehlern in Variablenmodellen" gearbeitet. Die Lehrbücher, die ich mir angesehen habe, sind Messfehler: Modelle, Methoden und Anwendungen von John Buonaccorsi (CRC Press,

Ihre Situation kann etwas anders sein, da ich aufgrund Ihres Streudiagramms den Verdacht habe, dass beide Beobachtungen Zufallsvariablen sind und ich nicht weiß, ob sie jeweils Messfehler enthalten. Was repräsentieren die Variablen?

Emil Friedman
quelle
Die Einstiegspunktqualität gibt an, um wie viel eine Aktie zu einem bestimmten Zeitpunkt kurzfristig steigt oder fällt. Das Branchen-Momentum ist ein Maß für das "Momentum" in der Branche für die Aktie zum gleichen Zeitpunkt. Die Hypothese ist, dass es eine Korrelation zwischen der Dynamik der Branche und dem zukünftigen Kurs der Aktie gibt.
B Seven
1
Wir legen die Antwort im Allgemeinen auf die vertikale Achse. Eine visuelle Überprüfung legt nahe, dass eine Variation der Einstiegspunktqualität selbst bei einer echten Korrelation ziemlich nutzlos ist. Da es sich jedoch um Aktienkurse handelt, werden die Dinge noch komplexer, da es sich um Zeitreihen handelt.
Emil Friedman
2

Ich fand das localgauss-Paket dafür sehr nützlich. https://cran.r-project.org/web/packages/localgauss/index.html

Das Paket enthält

Berechnungsroutinen zur Schätzung und Visualisierung lokaler Gauß-Parameter. Lokale Gaußsche Parameter sind nützlich, um nichtlineare Abhängigkeiten in bivariaten Daten zu charakterisieren und zu testen.

Beispiel:

library(localgauss)
x=rnorm(n=1000)
y=x^2 + rnorm(n=1000)
lgobj = localgauss(x,y)
plot(lgobj)

Ergebnis:

Geben Sie hier die Bildbeschreibung ein

SunWuKung
quelle