Zu vermeidende Fallstricke bei der Transformation von Daten?

15

Nachdem ich die Antwort doppelt transformiert hatte, erreichte ich eine starke lineare Beziehung zwischen meiner X und Y. Variablen. Das Modell war Y.X aber ich habe es in verbessertR2von 0,19 auf 0,76.YXXR2

Offensichtlich habe ich mich in dieser Beziehung anständig operieren lassen. Kann jemand die Fallstricke diskutieren, die dies mit sich bringt, beispielsweise die Gefahr exzessiver Transformationen oder möglicher Verstöße gegen statistische Grundsätze?

Info5ek
quelle
1
Nach dem, was Sie haben, sieht es allein aus der Algebra wie . Können Sie die Daten posten oder eine Grafik anzeigen? Gibt es wissenschaftliche Gründe, Y = 0 zu erwarten, wenn X = 0 ? Y.X2Y.=0X=0
Nick Cox
1
@ NickCox: Ich denke, ist eine unkonventionelle Notation für E Y = β 0 + β 1 X ; Vielleicht spricht das OP eher R als Mathe (was natürlich entmutigt werden sollte). YXEY=β0+β1X
Scortchi
@ Scortchi Ich fürchte, du hast recht. Die Daten zu sehen, würde in beiden Fällen helfen.
Nick Cox
In diesem Fall würde eine 0 X eine 0 Y bedeuten, da Y den Tod verursacht und X die Gesamtzahl der von allen Fahrern gefahrenen Kilometer ist.
Info5ek
2
@AaronHall Die Gleichung ist nicht unbedingt nutzlos, da (Multiplikation mit esX, das in manchen Situationen durchaus ein plausibles Modell sein kann). Allerdings ist dasR2in der Form der Gleichung, die in der Frage angegeben ist, nicht sehr nützlich. Sie können es nicht mit etwas vergleichen, das auf einer anderen Skala angepasst ist. (Wenn das Ihre Ablehnung meiner Antwort wäre, wäre eine Erklärung dessen, was Sie für falsch halten, nützlich.)Y=β0X+β1X+XϵR2
Glen_b

Antworten:

20

Sie können vorher und nachher nicht wirklich vergleichen , da die zugrunde liegende Variabilität in Y unterschiedlich ist. Sie können also buchstäblich keinen Trost aus der Änderung von R 2 ziehen . Das sagt nichts über den Wert des Vergleichs der beiden Modelle aus.R2YR2

Die beiden Modelle unterscheiden sich in verschiedener Hinsicht und haben daher unterschiedliche Bedeutungen: Sie nehmen sehr unterschiedliche Formen der Beziehung und die Variabilität des Fehlerterms an (wenn man die Beziehung zwischen und X betrachtet ). Wenn Sie also daran interessiert sind, Y zu modellieren (wenn Y selbst von Bedeutung ist), erstellen Sie ein gutes Modell dafür. Wenn Sie am Modellieren interessiert sind YXYY (/Y ist sinnvoll), produzieren Sie ein gutes Modell dafür. WennY trägt Bedeutung, dann machen Sie ein gutes Modell dafür. Vergleichen Sie jedoch alle konkurrierenden Modelle auf vergleichbaren Maßstäben. R2auf unterschiedliche Antworten sind einfach nicht vergleichbar.Y/XR2

Wenn Sie nur verschiedene Beziehungen ausprobieren, um eine Transformation mit einem hohen - oder einem anderen Maß für "gute Anpassung" zu finden, werden die Eigenschaften von Inferenzen, die Sie möglicherweise durchführen möchten, durch die Existenz von beeinflusst dieser Suchvorgang.R2

Die Schätzungen sind tendenziell von Null abweichend, die Standardfehler sind zu klein, die p-Werte sind zu klein und die Konfidenzintervalle zu eng. Ihre Modelle scheinen im Durchschnitt "zu gut" zu sein (in dem Sinne, dass ihr Verhalten außerhalb der Stichprobe im Vergleich zum Verhalten innerhalb der Stichprobe enttäuschend ist).

Um diese Art der Überanpassung zu vermeiden, müssen Sie, wenn möglich, die Modellidentifikation und -schätzung auf verschiedenen Teilmengen der Daten (und die Modellbewertung auf einer dritten) durchführen. Wenn Sie diese Art der Prozedur bei vielen "Teilungen" der zufällig erfassten Daten wiederholen, erhalten Sie ein besseres Gefühl dafür, wie reproduzierbar Ihre Ergebnisse sind.

Hier gibt es viele Posts mit relevanten Punkten zu diesen Themen: Es könnte sich lohnen, eine Suche durchzuführen.

(Wenn Sie gute a priori Gründe für die Auswahl einer bestimmten Umwandlung haben, ist dies ein anderes Problem. Die Suche im Bereich der Umwandlungen nach geeigneten Elementen bringt jedoch alle möglichen Probleme mit sich, wenn Sie nach Daten schnüffeln.)

Glen_b - Setzen Sie Monica wieder ein
quelle
Danke für die Antwort Glen. Der Grund, warum ich diese Transformation durchgeführt habe, ist, dass es das einzige ist, das mir keine voreingenommenen Residuen gegeben hat. Ich habe das Standard y / x, log (y), sqrt (y) und verschiedene Kombinationen davon ausprobiert. Alle führten zu einer abfallenden Restfläche. Erst nach einer zweistufigen Transformation erhielt ich zufällig erscheinende Residuen. Sie geben jedoch an, dass dieses Modell möglicherweise nicht für Daten außerhalb der Stichprobe aussagekräftig ist, da ich die Daten möglicherweise nur überarbeitet habe, richtig?
Info5ek
Nun ja, aber es ist ein Problem mit jeder Form von Modellspezifikation, wenn man sich die Daten ansieht, also passiert viel. In vielen Situationen ist es schwer zu vermeiden, wo die Stichprobensplitting kommen kann. (Kreuzvalidierung kann ein nützliches Werkzeug für solche Situationen sein.)
Glen_b - Monica 16.03.14 um 0:47
Es wäre nützlich, die Gründe für die Ablehnung zu kennen. Was ist los mit der Antwort? Vielleicht kann es verbessert werden. (Wenn es nicht verbessert werden kann, warum die Gegenstimme?)
Glen_b
1
@Glen_b: Es ist schwierig, eine falsch definierte Prozedur zu überprüfen - in jeder Falte müssten Sie den Prozess der Diagnose wiederholen, sich eine andere Transformation ausdenken, wenn Sie sie nicht mögen, das versuchen und so weiter.
Scortchi
1
@Scortchi Ja, wenn die Transformationen nicht nach einer einfachen Regel aus einem bekannten Pool von Kandidaten ausgewählt werden, ist dies möglicherweise unmöglich.
Glen_b -Reinstate Monica
16

Es gibt ein größeres Problem als die von @Glen_b identifizierten.

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
dv <- (y/x)^.5
iv <- x^.5
m1 <- lm(dv~iv)
summary(m1)

Und ich bekomme ein von 0,49 und einen P-Wert von 5,5R2 .5.5×1016

Du hast auf beiden Seiten der Gleichung.X

Peter Flom - Wiedereinsetzung von Monica
quelle
2
Ich bin mir nicht sicher, ob dies ein anderes Problem ist, als dass ich keine guten a priori Gründe habe, das Modell auf die eine oder andere Weise auszudrücken. Wenn Sie &Z=W=YX dann kann man genauso gut sagen, dass das erste Modell (YX)auf beiden Seiten der GleichungZ2hat. Z=XYXZ2
Scortchi - Wiedereinsetzung von Monica
4
Wenn & Z zufälliges Rauschen sind, ergibt die Regression von Y auf X eine starke Beziehung. Woher kommt die Asymmetrie, die eine Regression eher als die andere bezeichnet, ohne zu berücksichtigen, was die Variablen überhaupt bedeuten? Diese Art von Dingen wurde zwischen Pearson & Yule ( Aldrich (1995) ) und Yule diskutiert : Was falsch ist, ist nicht die Korrelation, sondern die Behauptung eines Kausalzusammenhangs, der auf dieser Korrelation basiert. WZYX
Scortchi
1
Ja, aber hier begann die Regression mit X und Y. Ist es nicht wichtig, welche Variablen sozusagen die Variablen sind?
Peter Flom - Wiedereinsetzung von Monica
2
Ich kann nicht verstehen, warum es so sein sollte, außer dass, wie @Glen_b in seinem ersten Satz ausführt , ein hoher Bestimmungskoeffizient eines Modells für W nichts zu befürchten ist, wenn Sie vorhersagen wollten . Und wenn Sie genaue Vorstellungen darüber haben, wie der Fehlerausdruck aussieht, ist natürlich ein Modell besser handhabbar als das andere. YW
Scortchi - Wiedereinsetzung von Monica
4
Sie sprechen W & Z an, @Scortchi, aber es scheint mir wichtig zu sein, was Sie als die Variablen ansehen, die Sie interessieren, und welche Variablen Sie erstellt haben, um ein besseres Modell zu erhalten. Welche die wirklichen Variablen sind, wird durch die Bedeutung von X usw. im Kontext der inhaltlichen Frage bestimmt. Ich schließe aus dem Text, dass das OP die Beziehung zwischen X und Y verstehen möchte, und erstelle W & Z, um die Modellanpassung zu verbessern. Das heißt, in diesem konkreten Fall scheint es mir, dass Peter Recht hat. Sie können nicht versuchen, Ihr Modell zu verbessern, indem Sie X auf beide Seiten setzen.
gung - Wiedereinsetzung von Monica
4

Das Beispiel von @ Peter enthält zwei Elemente, deren Entflechtung nützlich sein könnte:

(1) Modellfehlspezifikation. Die Models

yi=β0+β1xi+εi(1)

&

wi=γ0+γ1zi+ζi(2)

wi=yixizi=xi

wi=β0zi2+β1+εizi2(1)

yi=(γ0xi+γ1xi+ζixi)2(2)

If Y is assumed to be a Gaussian random variable independent of X, then that's a special case of Model 1 in which β1=0, & you shouldn't be using Model 2. But equally if W is assumed to be a Gaussian random variable independent of Z, you shouldn't be using Model 1. Any preference for one model rather than the other has to come from substantive theory or their fit to data.

(2) Transformation of the response. If you knew Y & X to be independent Gaussian random variables, why should the relation between W & Z still surprise you, or would you call it spurious? The conditional expectation of W can be approximated with the delta method:

EYx=EYzβ0+VarY8β03/2z

It is indeed a function of z.

Following through the example ...

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))

enter image description here

enter image description here

Neither Model 1 nor Model 2 is much use for predicting y from x, but both are all right for predicting w from z: mis-specification hasn't done much harm here (which isn't to say it never will—when it does, it ought to be apparent from the model diagnostics). Model-2-ers will run into trouble sooner as they extrapolate further away from the data—par for the course, if your model's wrong. Some will gain pleasure from contemplation of the little stars they get to put next to their p-values, while some Model-1-ers will bitterly grudge them this—the sum total of human happiness stays about the same. And of course, Model-2-ers, looking at the plot of w against z, might be tempted to think that intervening to increase z will reduce w—we can only hope & pray they don't succumb to a temptation we've all been incessantly warned against; that of confusing correlation with causation.

Aldrich (2005), "Correlations Genuine and Spurious in Pearson and Yule", Statistical Science, 10, 4 provides an interesting historical perspective on these issues.

Scortchi - Reinstate Monica
quelle
3

The earlier answer of @Glen_b is all important. Playing with transformations distorts every part of statistical inference and results in R2 that is biased high. In short, not having a parameter in the model for everything you don't know will give a false sense of precision. That's why regression splines are now so popular.

Frank Harrell
quelle