Regression durch den Ursprung

9

Wir haben die folgenden Punkte: Wie können wir die am besten passende Linie durch die Punkte finden? Mein Rechner hat die Option, die am besten passende Linie durch diese Punkte zu finden, nämlich:y = a x y = a x + b

(0,0)(1,51.8)(1.9,101.3)(2.8,148.4)(3.7,201.5)(4.7,251.1)(5.6,302.3)(6.6,350.9)(7.5,397.1)(8.5,452.5)(9.3,496.3)
y=axy=ax+b

y=53.28x+0.37

Wie finde ich die am besten passende ? Es scheint mir, dass wir die nicht einfach entfernen können, ohne die ?0,37 ay=ax0.37a

Edward Harrison
quelle
2
Gibt es einen Grund, warum Sie wollen? Das Unterdrücken des Achsenabschnitts führt zu einem verzerrten Modell, es sei denn, der Achsenabschnitt ist genau null bis unendlich dezimal. Selbst dann gewinnen Sie nicht viel Effizienz.
Gung - Reinstate Monica
1
Dies sind Ergebnisse eines physikalischen Experiments. Wenn es einen y-Achsenabschnitt hat, würde dies zu völlig falschen Dingen führen.
Edward Harrison
@gung Würde das bedeuten, dass wir nur die entfernen ? 0.37
Edward Harrison
5
"Unterdrücken des Abschnitts" bedeutet nicht einfach das Löschen der Schätzung aus Ihrem Modell, sondern das Anpassen eines Modells über eine andere Formel, die die Linie zwingt, durch den Ursprung zu gehen.
Gung - Reinstate Monica
6
"Physik-Experiment. [...] y-Achsenabschnitt [...] würde zu völlig falschen Dingen führen." Wenn die experimentellen Daten jedoch auf einen Achsenabschnitt hinweisen (übrigens können Sie überprüfen, ob das Konfidenzintervall für die Linie den Ursprung abdeckt), würde ich sehr genau überlegen, woher der Achsenabschnitt stammt. Ich bin analytischer Chemiker. In der analytischen Chemie gibt es auch eine Reihe von Beziehungen, die ohne Unterbrechung linear sein sollten . Aufgrund der Details von Instrumenten und Messungen sind sie jedoch kaum in der Praxis. Daher sehen wir das Unterdrücken des Abfangens normalerweise als eine sehr schlechte Idee an.
cbeleites unglücklich mit SX

Antworten:

13

Die Schätzung der gewöhnlichen kleinsten Quadrate der Steigung, wenn der Achsenabschnitt unterdrückt wird, lautet:

β^=i=1Nxiyii=1Nxi2
gung - Monica wieder einsetzen
quelle
10

@gung hat die OLS-Schätzung gegeben. Das haben Sie gesucht.

Wenn es sich jedoch um physikalische Größen handelt, bei denen die Linie durch den Ursprung verlaufen muss, ist es üblich, dass die Skala des Fehlers mit den x-Werten variiert (um ungefähr einen konstanten relativen Fehler zu haben). In dieser Situation wären gewöhnliche ungewichtete kleinste Quadrate unangemessen.

In dieser Situation besteht ein Ansatz (mit mehreren Möglichkeiten) darin, Protokolle zu erstellen, die x von den y zu subtrahieren und die logarithmische Steigung (der ursprünglichen Variablen) durch den Mittelwert der Differenzen zu schätzen.

Alternativ könnten gewichtete kleinste Quadrate verwendet werden. Im Falle eines konstanten relativen Fehlers würde sich die Verwendung des Schätzers (der Durchschnitt) reduzieren aller Hänge durch den Ursprung).β^=1Ni=1Nyixi

Es gibt andere Ansätze (z. B. GLMs), aber wenn Sie dies auf einem Taschenrechner tun, würde ich mich meinem ersten Vorschlag zuwenden.

Sie sollten auch die Angemessenheit aller von Ihnen getroffenen Annahmen berücksichtigen.


Ich dachte, es könnte lehrreich sein, die Ableitung der WLS-Linie durch den Ursprung hinzuzufügen, und dann sind mein "Durchschnitt der Steigungen" und Gungs-OLS Sonderfälle:

Das Modell ist wobeiyi=βxi+εi,Var(εi)=wiσ2

Wir wollen minimierenS=iwi(yiβxi)2

Sβ=i2xi.wi(yiβxi)

Wenn wir gleich Null setzen, um die LS-Lösung , erhalten wir oder .β^wixiyi=β^wixi2iβ^=wixiyiwixi2

Wenn für alle , ergibt dies die OLS-Lösung von gung.wi1i

Wenn (was für den Fall optimal ist, in dem die Streuung mit dem Mittelwert zunimmt), ergibt dies die obige Lösung "Durchschnitt der Steigungen".wi1/xi2

Glen_b -Reinstate Monica
quelle