Warum ist die Abweichung für den OLS-Schätzer in Bezug auf die lineare Regression gleich Null?

Ich verstehe das Konzept des Bias-Varianz-Kompromisses. Eine nach meinem Verständnis basierende Verzerrung stellt den Fehler dar, weil ein einfacher Klassifikator (z. B. linear) verwendet wird, um eine komplexe nichtlineare Entscheidungsgrenze zu erfassen. Daher habe ich erwartet, dass der OLS-Schätzer eine hohe Verzerrung und eine geringe Varianz aufweist.

Aber ich bin auf den Gauß-Markov-Satz gestoßen, der besagt, dass die Tendenz von OLS = 0 für mich überraschend ist. Bitte erläutern Sie, wie die Verzerrung für OLS Null ist, da ich eine hohe Verzerrung von OLS erwartet habe. Warum ist mein Verständnis von Voreingenommenheit falsch?

regression machine-learning least-squares unbiased-estimator blue GeorgeOfTheRF
quelle

Der Beweis, dass die Vorspannung von ols (für lineare Modelle) Null ist, setzt voraus, dass das Modell WAHR ist, dh dass alle relevanten Variablen im Modell enthalten sind, dass ihre Wirkung genau linear ist und so weiter .... Wenn dies nicht der Fall ist, folgt das Ergebnis nicht.

kjetil b halvorsen

Economictheoryblog.com/2015/02/26/markov_theorem

GeorgeOfTheRF

Das Gauß-Markov-Theorem sagt uns, dass in einem Regressionsmodell, in dem der erwartete Wert unserer Fehlerterme Null ist, E (\ epsilon_ {i}) = 0 und die Varianz der Fehlerterme konstant und endlich \ sigma ^ {2 ist } (\ epsilon_ {i}) = \ sigma ^ {2} \ textless \ infty und \ epsilon_ {i} und \ epsilon_ {j} sind für alle i und j der Schätzer der kleinsten Quadrate b_ {0} und b_ {1 nicht korreliert } sind unverzerrt und weisen eine minimale Varianz unter allen unverzerrten linearen Schätzern auf.

GeorgeOfTheRF

Ich habe nicht gesagt, dass das Modell perfekt passen soll, ich habe gesagt, dass alle relevanten Variablen enthalten sein sollten. Das sind zwei verschiedene Bedingungen!

kjetil b halvorsen

Die Annahme des mittleren Nullwerts für die Fehler entspricht den Anforderungen von @kjetilbhalvorsen: Der Fehlerterm enthält keine systematischen Auswirkungen mehr.

Christoph Hanck

Antworten:

Wir können uns jede überwachte Lernaufgabe, sei es Regression oder Klassifizierung, als Versuch vorstellen, ein zugrunde liegendes Signal aus verrauschten Daten zu lernen. Betrachten Sie das folgende einfache Beispiel:

Unser Ziel ist es, das wahre Signal basierend auf einer Menge beobachteter Paare zu schätzen wobei und ein zufälliges Rauschen mit dem Mittelwert 0 ist Am Ende passen wir ein Modell mit unserem bevorzugten Algorithmus für maschinelles Lernen an. $f(x)$ $\{x_i, y_i\}$ $y_i = f(x_i) + \epsilon_i$ $\epsilon_i$ $\hat{f}(x)$

Wenn wir sagen , dass die OLS - Schätzer unvoreingenommen ist, was wir wirklich meinen , das ist von dem Modell , wenn die wahre Form ist , dann ist die OLS - Schätzungen und haben die schönen Eigenschaften, dass und . $f(x) = \beta_0 + \beta_1 x$ $\hat{\beta}_0$ $\hat{\beta}_1$ $E(\hat{\beta}_0) = \beta_0$ $E(\hat{\beta}_1) = \beta_1$

Dies gilt für unser einfaches Beispiel, aber es ist eine sehr starke Annahme! Im Allgemeinen und in dem Maße, in dem kein Modell wirklich korrekt ist, können wir solche Annahmen über nicht treffen . Ein Modell der Form wird also voreingenommen sein. $f(x)$ $\hat{f}(x) = \hat{\beta}_0 + \hat{\beta}_1 x$

Was ist, wenn unsere Daten stattdessen so aussehen? ( Spoiler-Alarm: ) $f(x) = sin(x)$

Wenn wir nun das naive Modell anpassen, ist es für die Schätzung von (hohe Verzerrung) absolut unzureichend . Andererseits ist es relativ unempfindlich gegenüber Rauschen (geringe Varianz). $\hat{f}(x) = \hat{\beta}_0 + \hat{\beta}_1 x$ $f(x)$

Wenn wir dem Modell weitere Begriffe hinzufügen, sagen wir , wir können aufgrund der zusätzlichen Komplexität in der Struktur unseres Modells mehr vom "unbekannten" Signal erfassen. Wir verringern die Verzerrung der beobachteten Daten, aber die zusätzliche Komplexität erhöht notwendigerweise die Varianz. (Beachten Sie, wenn wirklich periodisch ist, ist die Polynomexpansion eine schlechte Wahl!) $\hat{f}(x) = \hat{\beta}_0 + \hat{\beta}_1x + \hat{\beta}_2x^2 + ... \hat{\beta}_p x^p$ $f(x)$

Aber auch hier wird unser Modell niemals unvoreingenommen sein , es sei denn, wir wissen, dass die wahre ist , selbst wenn wir OLS verwenden, um die Parameter anzupassen. $f(x) = \beta_0 + \beta_1 sin(x)$

Andy Kreek
quelle