Nachdem ich die Antwort doppelt transformiert hatte, erreichte ich eine starke lineare Beziehung zwischen meiner und Variablen. Das Modell war aber ich habe es in verbessertR2von 0,19 auf 0,76.
Offensichtlich habe ich mich in dieser Beziehung anständig operieren lassen. Kann jemand die Fallstricke diskutieren, die dies mit sich bringt, beispielsweise die Gefahr exzessiver Transformationen oder möglicher Verstöße gegen statistische Grundsätze?
regression
data-transformation
r-squared
Info5ek
quelle
quelle
Antworten:
Sie können vorher und nachher nicht wirklich vergleichen , da die zugrunde liegende Variabilität in Y unterschiedlich ist. Sie können also buchstäblich keinen Trost aus der Änderung von R 2 ziehen . Das sagt nichts über den Wert des Vergleichs der beiden Modelle aus.R2 Y R2
Die beiden Modelle unterscheiden sich in verschiedener Hinsicht und haben daher unterschiedliche Bedeutungen: Sie nehmen sehr unterschiedliche Formen der Beziehung und die Variabilität des Fehlerterms an (wenn man die Beziehung zwischen und X betrachtet ). Wenn Sie also daran interessiert sind, Y zu modellieren (wenn Y selbst von Bedeutung ist), erstellen Sie ein gutes Modell dafür. Wenn Sie am Modellieren interessiert sind √Y X Y Y (/ √Y−−√ ist sinnvoll), produzieren Sie ein gutes Modell dafür. Wenn √Y−−√ trägt Bedeutung, dann machen Sie ein gutes Modell dafür. Vergleichen Sie jedoch alle konkurrierenden Modelle auf vergleichbaren Maßstäben. R2auf unterschiedliche Antworten sind einfach nicht vergleichbar.Y/X−−−−√ R2
Wenn Sie nur verschiedene Beziehungen ausprobieren, um eine Transformation mit einem hohen - oder einem anderen Maß für "gute Anpassung" zu finden, werden die Eigenschaften von Inferenzen, die Sie möglicherweise durchführen möchten, durch die Existenz von beeinflusst dieser Suchvorgang.R2
Die Schätzungen sind tendenziell von Null abweichend, die Standardfehler sind zu klein, die p-Werte sind zu klein und die Konfidenzintervalle zu eng. Ihre Modelle scheinen im Durchschnitt "zu gut" zu sein (in dem Sinne, dass ihr Verhalten außerhalb der Stichprobe im Vergleich zum Verhalten innerhalb der Stichprobe enttäuschend ist).
Um diese Art der Überanpassung zu vermeiden, müssen Sie, wenn möglich, die Modellidentifikation und -schätzung auf verschiedenen Teilmengen der Daten (und die Modellbewertung auf einer dritten) durchführen. Wenn Sie diese Art der Prozedur bei vielen "Teilungen" der zufällig erfassten Daten wiederholen, erhalten Sie ein besseres Gefühl dafür, wie reproduzierbar Ihre Ergebnisse sind.
Hier gibt es viele Posts mit relevanten Punkten zu diesen Themen: Es könnte sich lohnen, eine Suche durchzuführen.
(Wenn Sie gute a priori Gründe für die Auswahl einer bestimmten Umwandlung haben, ist dies ein anderes Problem. Die Suche im Bereich der Umwandlungen nach geeigneten Elementen bringt jedoch alle möglichen Probleme mit sich, wenn Sie nach Daten schnüffeln.)
quelle
Es gibt ein größeres Problem als die von @Glen_b identifizierten.
Und ich bekomme ein von 0,49 und einen P-Wert von 5,5R2 .5.5×10−16
Du hast auf beiden Seiten der Gleichung.X
quelle
Das Beispiel von @ Peter enthält zwei Elemente, deren Entflechtung nützlich sein könnte:
(1) Modellfehlspezifikation. Die Models
&
IfY is assumed to be a Gaussian random variable independent of X , then that's a special case of Model 1 in which β1=0 , & you shouldn't be using Model 2. But equally if W is assumed to be a Gaussian random variable independent of Z , you shouldn't be using Model 1. Any preference for one model rather than the other has to come from substantive theory or their fit to data.
(2) Transformation of the response. If you knewY & X to be independent Gaussian random variables, why should the relation between W & Z still surprise you, or would you call it spurious? The conditional expectation of W can be approximated with the delta method:
It is indeed a function ofz .
Following through the example ...
Neither Model 1 nor Model 2 is much use for predictingy from x , but both are all right for predicting w from z : mis-specification hasn't done much harm here (which isn't to say it never will—when it does, it ought to be apparent from the model diagnostics). Model-2-ers will run into trouble sooner as they extrapolate further away from the data—par for the course, if your model's wrong. Some will gain pleasure from contemplation of the little stars they get to put next to their p-values, while some Model-1-ers will bitterly grudge them this—the sum total of human happiness stays about the same. And of course, Model-2-ers, looking at the plot of w against z , might be tempted to think that intervening to increase z will reduce w —we can only hope & pray they don't succumb to a temptation we've all been incessantly warned against; that of confusing correlation with causation.
Aldrich (2005), "Correlations Genuine and Spurious in Pearson and Yule", Statistical Science, 10, 4 provides an interesting historical perspective on these issues.
quelle
The earlier answer of @Glen_b is all important. Playing with transformations distorts every part of statistical inference and results inR2 that is biased high. In short, not having a parameter in the model for everything you don't know will give a false sense of precision. That's why regression splines are now so popular.
quelle