Ich habe viele Stellen gesehen, an denen sie Eingabe- / Ausgabe-Datasets haben, bei denen sie zuerst eine lineare Regressionslinie erstellen, die Abweichung korrigieren und diese Daten dann nur für ihr Modell verwenden. Ich habe nicht verstanden, was diese Bias-Korrektur ist?
bias
bias-correction
user31820
quelle
quelle
Antworten:
Obwohl die Problemstellung nicht präzise genug ist, um genau zu wissen, auf welche Art von Bias-Korrektur Sie sich beziehen, kann ich allgemein darüber sprechen. Manchmal kann ein Schätzer voreingenommen sein. Dies bedeutet lediglich, dass es sich zwar um einen guten Schätzer handelt, der erwartete oder durchschnittliche Wert jedoch nicht genau dem Parameter entspricht. Die Differenz zwischen dem Durchschnittswert des Schätzers und dem wahren Parameterwert wird als Bias bezeichnet. Wenn bekannt ist, dass ein Schätzer verzerrt ist, ist es manchmal auf andere Weise möglich, die Verzerrung zu schätzen und dann den Schätzer zu modifizieren, indem die geschätzte Verzerrung von der ursprünglichen Schätzung subtrahiert wird. Dieser Vorgang wird als Vorspannungskorrektur bezeichnet. Dies geschieht mit der Absicht, die Schätzung zu verbessern. Während es die Vorspannung verringert, erhöht es auch die Varianz.
Ein gutes Beispiel für eine erfolgreiche Vorspannungskorrektur sind die Bootstrap-Vorspannungskorrektur-Schätzungen der Klassifizierungsfehlerrate. Die Resubstitutionsschätzung der Fehlerrate weist eine große optimistische Tendenz auf, wenn die Stichprobengröße klein ist. Der Bootstrap wird verwendet, um die Vorspannung der Resubstitutionsschätzung zu schätzen, und da die Resubstitutionsschätzung die Fehlerrate unterschätzt, wird die Vorspannungsschätzung zur Resubstitutionsschätzung addiert, um die durch die Bootstrap-Vorspannung korrigierte Schätzung der Fehlerrate zu erhalten. Wenn die Stichprobengröße 30 oder weniger beträgt und beide Klassen in einem Zweiklassenproblem kombiniert werden, liefern bestimmte Formen der Bootstrap-Schätzung (insbesondere die 632-Schätzung) genauere Schätzungen der Fehlerraten als eine einmalige Kreuzvalidierung (was sehr wichtig ist) fast unbefangene Schätzung der Fehlerrate).
quelle