Ich suche nach Methoden, mit denen sich das Messfehlermodell "OLS" abschätzen lässt.
Wobei die Fehler unabhängig normal sind mit unbekannten Varianzen und . "Standard" OLS funktioniert in diesem Fall nicht.
Wikipedia hat einige unattraktive Lösungen - die beiden genannten zwingen Sie anzunehmen, dass entweder das "Varianzverhältnis" oder das " Zuverlässigkeitsverhältnis " ist bekannt, wobei ist die Varianz des wahren Regressors . Ich bin damit nicht zufrieden, denn wie kann jemand, der die Abweichungen nicht kennt, sein Verhältnis kennen?
Wie auch immer, gibt es andere Lösungen als diese beiden, bei denen ich nichts über die Parameter "wissen" muss?
Lösungen nur für den Schnittpunkt und die Steigung sind in Ordnung.
regression
estimation
errors-in-variables
Wahrscheinlichkeitslogik
quelle
quelle
Antworten:
Es gibt eine Reihe von Möglichkeiten, die von JW Gillard in Ein historischer Überblick über die lineare Regression mit Fehlern in beiden Variablen beschrieben wurden
Wenn Sie sich nicht in Details oder Gründe für die Wahl eines Verfahrens über die andere interessiert sind, gehen Sie einfach mit dem einfachsten, die die Linie durch den Schwerpunkt zu ziehen ist mit der Steigung β = s y / s x , dh das Verhältnis der beobachteten Standardabweichungen (wobei das Vorzeichen der Steigung dem Vorzeichen der Kovarianz von x und y entspricht ); wie Sie wahrscheinlich arbeiten können, das gibt auf der einen Intercept - y - Achse von α = ˉ y - & bgr; ˉ x .(x¯,y¯) β^=sy/sx x y y α^=y¯−β^x¯.
Die Vorzüge dieses speziellen Ansatzes sind
Die Steigung ist das geometrische Mittel der Steigungen der beiden normalen linearen Regressionssteigungen. Es ist auch das, was Sie erhalten würden, wenn Sie die und y- Beobachtungen standardisieren , eine Linie bei 45 ° zeichnen (oder 135 °, wenn es eine negative Korrelation gibt) und dann die Linie de-standardisieren. Es könnte auch als äquivalent angesehen werden, eine implizite Annahme zu treffen, dass die Varianzen der beiden Fehlersätze proportional zu den Varianzen der beiden Beobachtungssätze sind; Soweit ich das beurteilen kann, behaupten Sie nicht zu wissen, in welcher Richtung dies falsch ist.x y
Hier ist ein R-Code zur Veranschaulichung: Die rote Linie im Diagramm ist die OLS-Regression von auf X , die blaue Linie ist die OLS-Regression von X auf Y und die grüne Linie ist diese einfache Methode. Beachten Sie, dass die Steigung ca. 5 betragen sollte.Y X X Y
quelle