Angenommen , ich habe eine Stichprobe .
Angenommen,
und
Was ist der Unterschied zwischen und ?
regression
Stan Shunpike
quelle
quelle
Antworten:
ist eine Idee - sie existiert in der Praxis nicht wirklich. Wenn jedoch die Gauß-Markov-Annahme zutrifft, würde β 1 Ihnen diese optimale Steigung mit Werten darüber und darunter auf einer vertikalen "Schicht" vertikal zur abhängigen Variablen geben, die eine schöne normale Gaußsche Verteilung der Residuen bildet. Β 1 ist die Schätzung von β 1 auf der Probe berechnet.β1 β1 β^1 β1
Die Idee ist, dass Sie mit einer Stichprobe aus einer Population arbeiten. Ihre Probe bildet eine Datenwolke, wenn Sie so wollen. Eine der Dimensionen entspricht der abhängigen Variablen, und Sie versuchen, die Linie anzupassen, die die Fehlerterme minimiert. In OLS ist dies die Projektion der abhängigen Variablen auf den Vektorunterraum, der durch den Spaltenraum der Modellmatrix gebildet wird. Diese Schätzungen der Populationsparameter werden mit dem bezeichneten β - Symbol. Je mehr Datenpunkte Sie haben desto genauer sind die geschätzten Koeffizienten, β i sind, und desto besser ist die Abschätzung dieser idealisierten Population Koeffizienten, β i .β^ β^ich βich
Hier ist der Unterschied in den Steigungen ( gegenüber β ) zwischen der „Population“ in blau, und die Probe in isolierten schwarzen Punkten:β β^
Die Regressionslinie ist gepunktet und schwarz, während die synthetisch perfekte "Populations" -Linie durchgehend blau ist. Die Fülle an Punkten vermittelt ein taktiles Gefühl für die Normalität der Residuenverteilung.
quelle
Das "Hut" -Symbol bezeichnet im Allgemeinen eine Schätzung im Gegensatz zum "wahren" Wert. Daher β ist eine Schätzung von β . Einige Symbole haben ihre eigenen Konventionen: die Stichprobenvarianz zum Beispiel oft als geschrieben s 2 , nicht σ 2 , obwohl einige Leute benutzen beide zwischen voreingenommen und unverzerrte Schätzungen zu unterscheiden.β^ β s2 σ^2
In Ihrem speziellen Fall ist die β sind Werte , Parameterschätzungen für ein lineares Modell. Das lineare Modell nimmt an, dass die Ergebnisvariable Y durch eine lineare Kombination der x i s erzeugt wird, die jeweils mit dem entsprechenden β i -Wert gewichtet sind . In der Praxis sind diese β- Werte natürlich unbekannt und existieren möglicherweise nicht einmal (möglicherweise werden die Daten nicht durch ein lineares Modell erzeugt). Dennoch können wir abschätzen , β - Werte aus den Daten , die ungefähre Y .β^ Y. xich βich β β^ Y.
quelle
Die Gleichung
und die resultierende Linie der besten Anpassung ist,
quelle