Ist die Regression von x auf y in diesem Fall deutlich besser als die von y auf x?

10

Ein Instrument zur Messung des Glukosespiegels im Blut einer Person wird an einer Zufallsstichprobe von 10 Personen überwacht. Die Werte werden auch unter Verwendung eines sehr genauen Laborverfahrens gemessen. Das Instrumentenmaß wird mit x bezeichnet. Die Laborprozedurmaßnahme ist mit y bezeichnet.

Ich persönlich denke, y auf x ist korrekter, weil die Absicht besteht, die Instrumentenablesungen zu verwenden, um die Laborablesungen vorherzusagen. Und y auf x minimiert die Fehler solcher Vorhersagen.

Aber die Antwort war x auf y.

Neo
quelle
2
Willkommen auf der Website, @Neo. Wenn diese Frage durch eine Klassen- / Lehrbuchübung motiviert wurde, fügen Sie bitte das [self-study]Tag hinzu.
Gung - Reinstate Monica

Antworten:

6

Viele Laborarbeiten, insbesondere die Experimente zum Testen von Instrumenten, wenden eine solche x auf y-Regression an.

Sie argumentieren, dass aus der Datenerfassung im Experiment die y-Bedingungen gesteuert werden und x aus der Instrumentenablesung erhalten wird (was zu Fehlern führt). Dies ist das ursprüngliche physikalische Modell des Experiments, daher ist der x ~ y + -Fehler besser geeignet.

Um den Versuchsfehler zu minimieren, wird y manchmal unter denselben Bedingungen gesteuert, dann wird x mehrmals gemessen (oder es wird wiederholt experimentiert). Dieses Verfahren kann Ihnen helfen, die Logik dahinter zu verstehen und x ~ y + Fehler klarer zu finden.

Vincent
quelle
+1 Ich denke wirklich an die Antwort bis jetzt, dies spricht wahrscheinlich am besten den ursprünglichen Beitrag an. Diese Frage wurde mit ziemlicher Sicherheit durch das Verständnis des Instruments motiviert, anstatt einen Proxy zu kalibrieren. Wenn Sie nur eine X-Messung für jedes Y haben, bin ich mir ziemlich sicher (abgesehen von Whubers Kommentar), dass Y-on-X ein korrekter Ansatz ist. Mehrere X zerstören das zwar, aber X-on-Y ist immer noch korrekt (aber nicht für die Vorhersage von Y verwendbar).
Corone
Sie haben ein Problem, @Corone: Wenn sowohl X gegen Y als auch Y gegen X korrekt sind, wissen wir alle, dass Sie deutlich unterschiedliche angepasste Linien erhalten, wenn kleiner als 1 ist . Welche dieser beiden Linien würden Sie wählen und auf welcher Basis? Die richtige Lösung dieses Dilemmas besteht darin, dass - wie Vincent erklärt - unsere Vorstellung von Messfehlern eine Asymmetrie aufweist: Das Instrument wird mit nennenswerten Fehlern gemessen; Es wird davon ausgegangen, dass das Labor keinen nennenswerten Fehler aufweist. Gewöhnliche Regressionsverfahren gehen davon aus, dass X keinen Fehler aufweist und der gesamte Fehler in Y liegt, sodass er behoben wird. R21
whuber
@ whuber sie sind beide korrekt, beantworten aber unterschiedliche Probleme. Bei mehreren X-Messungen ist Y-on-X nicht einmal mehr korrekt für das Problem, das es beantworten soll. Meine Kommentare werden jedoch albern, nein, also werde ich stattdessen meine Antwort bearbeiten
Corone
6

Y on XX on Y

YXY on XX

X on YYX

X on YY

X on Y

gung - Monica wieder einsetzen
quelle
YX
@whuber Fehler in Variablen sind für die Vorhersage nicht geeignet. Fehler in Variablen sind nützlich, wenn Sie die Größe einer Beziehung verstehen möchten, aber Messfehler in X und Y haben. Zur Vorhersage ist das X "fehlerfrei bekannt", solange es in Ihrem Trainingssatz und auf die gleiche Weise erfasst wird Vorhersage gesetzt.
Corone
@Corone Sie haben Recht, dass Fehler in Variablen nicht gut für die Vorhersage sind, aber das wird, soweit ich das beurteilen kann, nicht empfohlen. Genau aus diesem Grund muss das Instrument wirklich gegen das Labor (das nur OLS verwendet) zurückgeführt werden und nicht umgekehrt. Bitte konsultieren Sie die Draper & Smith-Referenz, die ich in einem anderen Kommentar zu diesem Thread zitiere. Ich verlasse mich auf Abschnitt 1.7 der zweiten Ausgabe.
whuber
@Corone, Sie haben Recht mit der Vorhersage / den Fehlern in Variablen, aber es ist nicht ganz das, was ich sagen wollte. Ich werde versuchen, einen besseren Weg zu finden, um es auszudrücken.
Gung - Reinstate Monica
4

Vorhersage und Prognose

Ja, Sie haben Recht. Wenn Sie dies als Vorhersageproblem betrachten, erhalten Sie durch eine Y-auf-X-Regression ein Modell, mit dem Sie bei einer Instrumentenmessung eine unvoreingenommene Schätzung der genauen Labormessung vornehmen können, ohne das Laborverfahren durchführen zu müssen .

E[Y|X]

Dies mag kontraintuitiv erscheinen, da die Fehlerstruktur nicht die "echte" ist. Unter der Annahme, dass die Labormethode eine fehlerfreie Goldstandardmethode ist, "wissen" wir, dass das wahre datengenerierende Modell ist

Xi=βYi+ϵi

YiϵiE[ϵ]=0

E[Yi|Xi]

Yi=Xiϵβ

Xi

E[Yi|Xi]=1βXi1βE[ϵi|Xi]

E[ϵi|Xi]ϵX

Explizit können wir ohne Verlust der Allgemeinheit lassen

ϵi=γXi+ηi

E[ηi|X]=0

YI=1βXiγβXi1βηi

YI=1γβXi1βηi

ηββσ

YI=αXi+ηi

β

Instrumentenanalyse

Die Person, die Ihnen diese Frage gestellt hat, wollte die obige Antwort eindeutig nicht, da sie sagt, dass X-auf-Y die richtige Methode ist. Warum haben sie das vielleicht gewollt? Höchstwahrscheinlich überlegten sie, das Instrument zu verstehen. Wie in Vincents Antwort besprochen, ist das X-on-Y der richtige Weg, wenn Sie wissen möchten, dass sich das Instrument verhält.

Zurück zur ersten Gleichung oben:

Xi=βYi+ϵi

E[Xi|Yi]=YiXβ

Schwindung

YE[Y|X]γE[Y|X]Y. Dies führt dann zu Konzepten wie Regression zum Mittelwert und empirischen Bayes.

Beispiel in R Eine Möglichkeit, ein Gefühl dafür zu bekommen, was hier vor sich geht, besteht darin, einige Daten zu erstellen und die Methoden auszuprobieren. Der folgende Code vergleicht X-on-Y mit Y-on-X für die Vorhersage und Kalibrierung, und Sie können schnell erkennen, dass X-on-Y für das Vorhersagemodell nicht gut ist, aber das richtige Verfahren für die Kalibrierung.

library(data.table)
library(ggplot2)

N = 100
beta = 0.7
c = 4.4

DT = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT[, X := 0.7*Y + c + epsilon]

YonX = DT[, lm(Y~X)]   # Y = alpha_1 X + alpha_0 + eta
XonY = DT[, lm(X~Y)]   # X = beta_1 Y + beta_0 + epsilon


YonX.c = YonX$coef[1]   # c = alpha_0
YonX.m = YonX$coef[2]   # m = alpha_1

# For X on Y will need to rearrage after the fit.
# Fitting model X = beta_1 Y + beta_0
# Y = X/beta_1 - beta_0/beta_1

XonY.c = -XonY$coef[1]/XonY$coef[2]      # c = -beta_0/beta_1
XonY.m = 1.0/XonY$coef[2]  # m = 1/ beta_1

ggplot(DT, aes(x = X, y =Y)) + geom_point() +  geom_abline(intercept = YonX.c, slope = YonX.m, color = "red")  +  geom_abline(intercept = XonY.c, slope = XonY.m, color = "blue")

# Generate a fresh sample

DT2 = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT2[, X := 0.7*Y + c + epsilon]

DT2[, YonX.predict := YonX.c + YonX.m * X]
DT2[, XonY.predict := XonY.c + XonY.m * X]

cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])

# Generate lots of samples at the same Y

DT3 = data.table(Y = 4.0, epsilon = rt(N,8))
DT3[, X := 0.7*Y + c + epsilon]

DT3[, YonX.predict := YonX.c + YonX.m * X]
DT3[, XonY.predict := XonY.c + XonY.m * X]

cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])

ggplot(DT3) + geom_density(aes(x = YonX.predict), fill = "red", alpha = 0.5) + geom_density(aes(x = XonY.predict), fill = "blue", alpha = 0.5) + geom_vline(x = 4.0, size = 2) + ggtitle("Calibration at 4.0")

Die beiden Regressionslinien sind über den Daten aufgetragen

Geben Sie hier die Bildbeschreibung ein

Und dann wird die Summe der Fehlerquadrate für Y für beide Anpassungen an einer neuen Stichprobe gemessen.

> cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
YonX sum of squares error for prediction:  77.33448
> cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])
XonY sum of squares error for prediction:  183.0144

Alternativ kann eine Stichprobe mit einem festen Y (in diesem Fall 4) erstellt und dann der Durchschnitt dieser Schätzungen ermittelt werden. Sie können jetzt sehen, dass der Y-on-X-Prädiktor mit einem erwarteten Wert, der viel niedriger als Y ist, nicht gut kalibriert ist. Der X-on-Y-Prädiktor ist mit einem erwarteten Wert nahe Y gut kalibriert.

> cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
Expected value of X at a given Y (calibrated using YonX) should be close to 4:  1.305579
> cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])
Expected value of X at a gievn Y (calibrated using XonY) should be close to 4:  3.465205

Die Verteilung der beiden Vorhersagen ist in einem Dichtediagramm zu sehen.

Geben Sie hier die Bildbeschreibung ein

Corone
quelle
YXX
3
Y=β0+β1X+ϵVar(ϵ)=σ2.X=(Yβ0ϵ)/β1X=α0+α1Y+δVar(δ)=σ2α12σ2
1
β
2
Y kann eine Zufallsvariable über eine Population von Menschen sein, aber für jede gegebene Person ist es ein zu schätzender Parameter. Durch die Regression von Y auf X wird jede Schätzung von Y in Richtung des Gruppenmittelwerts verringert, wodurch der mittlere quadratische Fehler gegenüber Personen verringert wird, jedoch systematische Verzerrungen erzeugt werden, die aus ethischen oder rechtlichen Gründen möglicherweise nicht akzeptabel sind. Das Regressieren von X auf Y liefert Informationen, die verwendet werden können, um ein unvoreingenommenes Konfidenzintervall für das Y jeder Person zu erstellen. Diese Intervalle sind jedoch tendenziell breit, wie der blaue Bereich im Diagramm, während das Vorhersageintervall von der Regression von Y auf X enger, aber voreingenommen ist , wie der rote.
Ray Koopman
1
@ RayKoopman, das ist eine wunderbare Art, es auszudrücken! Ja - Y auf X bedeutet, die beste Vorhersage im Durchschnitt über viele verschiedene Ys zu erhalten, während es bei der Kalibrierung darum geht, für ein einzelnes Y fair und unvoreingenommen zu sein.
Corone
2

Dies hängt von Ihren Annahmen über die Varianz von X und die Varianz von Y für gewöhnliche kleinste Quadrate ab. Wenn Y die einzige Varianzquelle hat und X die Varianz Null hat, verwenden Sie X, um Y zu schätzen. Wenn die Annahmen umgekehrt sind (X hat die einzige Varianz und Y hat die Varianz Null), verwenden Sie Y, um X zu schätzen.

Wenn angenommen wird, dass sowohl X als auch Y eine Varianz aufweisen, müssen Sie möglicherweise die Gesamtzahl der kleinsten Quadrate berücksichtigen .

Eine gute Beschreibung von TLS wurde unter diesem Link geschrieben . Das Papier ist auf den Handel ausgerichtet, aber Abschnitt 3 beschreibt TLS gut.

Bearbeiten 1 (09/10/2013) ========================================== ======

Ich nahm ursprünglich an, dass dies eine Art Hausaufgabenproblem war, daher wurde ich nicht wirklich spezifisch über die "Antwort" auf die Frage des OP. Aber nachdem Sie andere Antworten gelesen haben, scheint es in Ordnung zu sein, etwas detaillierter zu werden.

Zitat eines Teils der Frage des OP:

".... Die Werte werden auch mit einem sehr genauen Laborverfahren gemessen ...."

Die obige Aussage besagt, dass es zwei Messungen gibt, eine vom Instrument und eine vom Laborverfahren. Die Aussage impliziert auch, dass die Varianz für das Laborverfahren im Vergleich zur Varianz für das Instrument gering ist.

Ein weiteres Zitat aus der Frage des OP lautet:

".... Die Laborprozedurmaßnahme wird mit y bezeichnet ....."

Aus den beiden obigen Aussagen geht hervor, dass Y die geringere Varianz aufweist. Die am wenigsten fehleranfällige Technik besteht darin, Y zum Schätzen von X zu verwenden. Die "bereitgestellte Antwort" war korrekt.

bill_080
quelle
1
XY
Nein, die Wahl der Regression sollte nicht danach erfolgen, wo die Varianz liegt - sie sollte basierend auf der Frage getroffen werden, die Sie beantworten möchten. Wenn Sie TLS verwenden , um ein Vorhersagemodell für Y gegeben X bauen Sie wird falsch sein. Bei TLS und ähnlichen Modellen für Fehler in Variablen geht es darum, die wahre Beziehung zwischen zugrunde liegenden Variablen / Prozessen zu verstehen - nicht um Prognosen
Corone
1
@Corone Obwohl Sie richtig sind, dass die eigenen Ziele die Auswahl statistischer Verfahren bestimmen, muss das Verfahren auch für das Wahrscheinlichkeitsmodell geeignet sein ("wo die Varianz ist"). Wenn Sie den Laborwert anhand des Messwerts des Instruments mit hoher Varianz vorhersagen möchten, wählen Sie auf jeden Fall ein dafür geeignetes Verfahren. Bei diesem Verfahren handelt es sich jedoch nicht um eine Vorhersage unter Verwendung der gewöhnlichen Anpassung der kleinsten Quadrate und ihrer Varianzschätzungen.
whuber
1
@Corone - Ich stimme zu, dass die Regressionstechnik auf der Frage basieren sollte, die Sie beantworten möchten. Die ausgewählte Technik enthält jedoch Annahmen über die Varianz der Variablen. Wenn die Varianzannahmen der Auswahl nicht mit Ihrem Konzept für das Modell übereinstimmen, haben Sie die falsche Technik ausgewählt. Deshalb habe ich die 3 Möglichkeiten aufgelistet (Null-X-Varianz zum Schätzen von Y; Null-Y-Varianz zum Schätzen von X; Nicht-Null-X- und Y-Varianz).
bill_080