Ich verstehe das Konzept des Bias-Varianz-Kompromisses. Eine nach meinem Verständnis basierende Verzerrung stellt den Fehler dar, weil ein einfacher Klassifikator (z. B. linear) verwendet wird, um eine komplexe nichtlineare Entscheidungsgrenze zu erfassen. Daher habe ich erwartet, dass der OLS-Schätzer eine hohe Verzerrung und eine geringe Varianz aufweist.
Aber ich bin auf den Gauß-Markov-Satz gestoßen, der besagt, dass die Tendenz von OLS = 0 für mich überraschend ist. Bitte erläutern Sie, wie die Verzerrung für OLS Null ist, da ich eine hohe Verzerrung von OLS erwartet habe. Warum ist mein Verständnis von Voreingenommenheit falsch?
regression
machine-learning
least-squares
unbiased-estimator
blue
GeorgeOfTheRF
quelle
quelle
Antworten:
Wir können uns jede überwachte Lernaufgabe, sei es Regression oder Klassifizierung, als Versuch vorstellen, ein zugrunde liegendes Signal aus verrauschten Daten zu lernen. Betrachten Sie das folgende einfache Beispiel:
Unser Ziel ist es, das wahre Signal basierend auf einer Menge beobachteter Paare zu schätzen wobei und ein zufälliges Rauschen mit dem Mittelwert 0 ist Am Ende passen wir ein Modell mit unserem bevorzugten Algorithmus für maschinelles Lernen an.f(x) {xi,yi} yi=f(xi)+ϵi ϵi f^(x)
Wenn wir sagen , dass die OLS - Schätzer unvoreingenommen ist, was wir wirklich meinen , das ist von dem Modell , wenn die wahre Form ist , dann ist die OLS - Schätzungen und haben die schönen Eigenschaften, dass und .f(x)=β0+β1x β^0 β^1 E(β^0)=β0 E(β^1)=β1
Dies gilt für unser einfaches Beispiel, aber es ist eine sehr starke Annahme! Im Allgemeinen und in dem Maße, in dem kein Modell wirklich korrekt ist, können wir solche Annahmen über nicht treffen . Ein Modell der Form wird also voreingenommen sein.f(x) f^(x)=β^0+β^1x
Was ist, wenn unsere Daten stattdessen so aussehen? ( Spoiler-Alarm: )f(x)=sin(x)
Wenn wir nun das naive Modell anpassen, ist es für die Schätzung von (hohe Verzerrung) absolut unzureichend . Andererseits ist es relativ unempfindlich gegenüber Rauschen (geringe Varianz).f^(x)=β^0+β^1x f(x)
Wenn wir dem Modell weitere Begriffe hinzufügen, sagen wir , wir können aufgrund der zusätzlichen Komplexität in der Struktur unseres Modells mehr vom "unbekannten" Signal erfassen. Wir verringern die Verzerrung der beobachteten Daten, aber die zusätzliche Komplexität erhöht notwendigerweise die Varianz. (Beachten Sie, wenn wirklich periodisch ist, ist die Polynomexpansion eine schlechte Wahl!)f^(x)=β^0+β^1x+β^2x2+...β^pxp f(x)
Aber auch hier wird unser Modell niemals unvoreingenommen sein , es sei denn, wir wissen, dass die wahre ist , selbst wenn wir OLS verwenden, um die Parameter anzupassen.f(x)=β0+β1sin(x)
quelle