Was ist intuitiv "Voreingenommenheit"?

Ich kämpfe darum, das Konzept der Verzerrung im Kontext der linearen Regressionsanalyse zu verstehen.

Was ist die mathematische Definition von Voreingenommenheit?
Was genau ist voreingenommen und warum / wie?
Bildhaftes Beispiel?

regression terminology bias definition Fabian
quelle

Antworten:

Die Abweichung ist die Differenz zwischen dem erwarteten Wert eines Schätzers und dem geschätzten wahren Wert. Zum Beispiel ist der Stichprobenmittelwert für eine einfache Zufallsstichprobe (SRS) ein unvoreingenommener Schätzer des Populationsmittelwerts, denn wenn Sie alle möglichen SRSs verwenden, um deren Mittelwerte zu ermitteln, erhalten Sie den Populationsmittelwert (für endlich) Populationen dies ist nur Algebra, um dies zu zeigen). Wenn wir jedoch einen Stichprobenmechanismus verwenden, der in irgendeiner Weise mit dem Wert zusammenhängt, kann der Mittelwert verzerrt werden.

Das sind auch einige Schätzer, die natürlich voreingenommen sind. Der getrimmte Mittelwert wird für eine verzerrte Population / Verteilung voreingenommen sein. Die Standardvarianz ist für SRS unverzerrt, wenn entweder der Populationsmittelwert mit dem Nenner oder der Stichprobenmittelwert mit dem Nenner . $n$ $n-1$

Hier ist ein einfaches Beispiel mit R: Wir generieren eine Reihe von Stichproben aus einer Normalen mit dem Mittelwert 0 und der Standardabweichung 1 und berechnen dann den durchschnittlichen Mittelwert, die Varianz und die Standardabweichung aus den Stichproben. Beachten Sie, wie nahe die Mittel- und Varianzmittelwerte an den wahren Werten liegen (Stichprobenfehler bedeuten, dass sie nicht exakt sind). Vergleichen Sie nun den Mittelwert sd, es handelt sich um einen voreingenommenen Schätzer (wenn auch nicht sehr voreingenommen).

> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121

In der Regression können wir durch schrittweise Regression voreingenommene Schätzer von Steigungen erhalten. Es ist wahrscheinlicher, dass eine Variable in einer schrittweisen Regression gehalten wird, wenn die geschätzte Steigung weiter von 0 entfernt ist, und es ist wahrscheinlicher, dass sie abfällt, wenn sie näher bei 0 liegt. Dies ist also eine verzerrte Abtastung, und die Steigungen im endgültigen Modell sind tendenziell weiter von 0 als die wahre Steigung. Techniken wie die Lasso- und Ridge-Regressionsverzerrung neigen sich zu 0, um der Auswahlverzerrung von 0 weg entgegenzuwirken.

Greg Snow
quelle

SRS?

$\text{ }$

Kardinal

@ Kardinal Einfache Zufallsauswahl.

Whuber

@whuber: Wow. Obwohl die Abkürzung sinnvoll ist, kann ich mich nicht erinnern, dass ich sie in einem formaleren Umfeld gefunden habe. Gibt es bestimmte Unterfelder oder Anwendungsbereiche, in denen dies ein "Standard" -Initialismus ist?

Kardinal

@ Kardinal Siehe en.wikipedia.org/wiki/Simple_random_sample

whuber

(+1) @whubers Bearbeitung war hilfreich bei der Klärung dieser Antwort.

Kardinal

Verzerrung bedeutet, dass der erwartete Wert des Schätzers nicht dem Populationsparameter entspricht.

Intuitiv in einer Regressionsanalyse würde dies bedeuten, dass die Schätzung eines der Parameter zu hoch oder zu niedrig ist. Gewöhnliche Regressionsschätzungen für kleinste Quadrate sind jedoch BLAU, was für die besten linearen unverzerrten Schätzer steht. Bei anderen Formen der Regression können die Parameterschätzungen verzerrt sein. Dies kann eine gute Idee sein, da es häufig einen Kompromiss zwischen Voreingenommenheit und Varianz gibt. Beispielsweise wird manchmal eine Gratregression verwendet, um die Varianz von Schätzungen bei Kollinearität zu verringern.

Ein einfaches Beispiel kann dies besser veranschaulichen, wenn auch nicht im Kontext der Regression. Angenommen, Sie wiegen 150 Pfund (überprüft auf einer Waage, die Sie in einem Korb und einen Stapel Gewichte in dem anderen Korb hat). Jetzt haben Sie zwei Personenwaagen. Sie wiegen sich jeweils fünfmal.

Skala 1 ergibt Gewichte von 152, 151, 151,5, 150,5 und 152.

Skala 2 ergibt Gewichte von 145, 155, 154, 146 und 150.

Skala 1 ist voreingenommen, weist jedoch eine geringere Varianz auf. Der Durchschnitt der Gewichte ist nicht Ihr wahres Gewicht. Skala 2 ist unvoreingenommen (der Durchschnitt liegt bei 150), weist jedoch eine viel höhere Varianz auf.

Welche Skala ist "besser"? Es hängt davon ab, was die Waage tun soll.

Peter Flom - Wiedereinsetzung von Monica
quelle

Obwohl die Definition der Voreingenommenheit korrekt ist, befürchte ich, dass die Beispiele sie mit Ungenauigkeiten verwechseln, was etwas völlig anderes ist! Die Abweichung ist eine Eigenschaft eines statistischen Verfahrens (eines Schätzers), während die Genauigkeit eine Eigenschaft eines Messprozesses ist . (-1).

Whuber

@whuber: Ja, dem stimme ich zu. Und ich denke immer noch, dass es trotzdem notwendig ist, den Unterschied zwischen mathematischen Erwartungen und einem Stichproben-Durchschnitt zu verdeutlichen, da sie sich auf Verzerrungen beziehen.

Kardinal

Nein, ich habe nicht versucht, etwas über "Ungenauigkeit" (die schrecklich schwer zu definieren ist) zu sagen, sondern über "Varianz". Eine Skala ist unbefangen, die andere hat eine geringe Varianz. Ich habe das Wort "genau" oder "genau" nicht verwendet. Eine Waage, die dazu neigt, Ihr Gewicht als zu hoch (oder zu niedrig) einzuschätzen, ist voreingenommen.

Peter Flom - Wiedereinsetzung von Monica

Aber dieses Gefühl der "Voreingenommenheit" ist nur ein Synonym für ungenau; Es ist nicht dasselbe wie die Definition, die Sie in der ersten Zeile angegeben haben. Darüber hinaus verwechselt das Beispiel, wie @ cardinal hervorhebt, eine Erwartung mit dem Mittelwert einer bestimmten Stichprobe.

Whuber

Ich stimme mit @whuber hier überein. Im (richtigen) Sinne der Voreingenommenheit, nach der das OP fragt, ist nicht die Skala voreingenommen oder unvoreingenommen, sondern die Schätzung Ihres Gewichts, die Sie aus ihren Messungen ableiten!

Kardinal

In der linearen Regressionsanalyse bezieht sich Verzerrung auf den Fehler, der durch Annäherung an ein reales Problem, das möglicherweise kompliziert ist, durch ein viel einfacheres Modell eingeführt wird. Einfach ausgedrückt, nehmen Sie ein einfaches lineares Modell wie y * = (a *) x + b * an, wobei das Geschäftsproblem wie im wirklichen Leben y = ax ^ 3 + bx ^ 2 + c sein könnte.

Es kann gesagt werden, dass der erwartete Test-MSE (Mean Squared Error) aus einem Regressionsproblem wie folgt zerlegt werden kann. E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Bias (f * (x0))] ^ 2 + Var (e)

f * -> angenommene funktionale Form für das lineare Regressionsmodell y0 -> ursprünglicher Antwortwert in den Testdaten x0 -> ursprünglicher Prädiktorwert in den Testdaten e -> irreduzibler Fehler Das Ziel ist also die Auswahl einer besten Methode, um ein Modell zu erhalten, das erzielt geringe Varianz und geringe Vorspannung.

Anmerkung: Eine Einführung in das statistische Lernen von Trevor Hastie & Robert Tibshirani bietet gute Einblicke in dieses Thema

Ganga
quelle

Dies wird häufig durch etwas wie "Modellfehlspezifikationsfehler" bezeichnet, um es nicht mit der in der akzeptierten Antwort angegebenen Standarddefinition der Verzerrung zu verwechseln. Andernfalls wäre es unmöglich, die (richtige) Behauptung zu verstehen, dass OLS ein unvoreingenommener Schätzer der Koeffizienten der Regressoren ist.

Whuber