Ich höre, dass der Begriff Voreingenommenheit in der statistischen Literatur häufig verwendet wird.
Zum Beispiel,
Durch die Verwendung der mittleren Imputation fügen wir unserer Schätzung eine Verzerrung hinzu.
Ein anderes Beispiel,
Der Bias-Varianz-Kompromiss ist ein wichtiges Thema bei der Auswahl von Modellen.
Sind das die gleichen "Vorurteile"?
terminology
bias
Franck Dernoncourt
quelle
quelle
Antworten:
Der Begriff "Bias" hat in der statistischen Literatur eine spezifische Definition (die Differenz zwischen dem erwarteten Wert eines Schätzers und dem zu schätzenden Objekt), aber das heißt nicht, dass er seine ursprüngliche, allgemeinere Bedeutung verliert. Welches beabsichtigt ist, hängt vom Kontext ab, und oft haben Sie eine Mischung aus beiden.
Ich würde sagen, dass die erste Verwendung im Allgemeinen die weniger genaue Art ist, da die Datenimputation eine Methode ist, die bei angewandten Problemen verwendet wird, bei denen nicht angenommen werden muss, dass überhaupt ein wahrer Wert des Parameters existiert. Hier ist es im Grunde gleichbedeutend mit "gegen Null geschrumpft".
Was die zweite Verwendung betrifft, so leitet sich der Begriff Bias-Varianz-Kompromiss ursprünglich aus der formaleren Definition von Bias ab, aber ich würde dennoch sagen, dass dies eher auf die allgemeine "Inflexibilität" eines Modellanpassungsverfahrens verweist und nicht notwendigerweise die Frage, ob eine geschätzte Regressionsfunktion im Durchschnitt korrekt ist oder nicht.
quelle
Ich stimme zu, dass diese Terminologie verwirrend ist. Bias hat in beiden Kontexten eine Bedeutung: Entfernung von Ideal- oder Zielwerten, aber die Interpretation hängt davon ab, über welchen Raum wir sprechen. Ich werde erklären, was ich in Bezug auf die beiden Zitate in Ihrer Frage meine.
Dies bezieht sich auf eine Verzerrung im Datenraum. Die mittlere Imputation beeinflusst die Position Ihrer Schätzungen relativ zu den Zielwerten.
Dies bezieht sich auf Verzerrung und Varianz im Parameterraum von Modellen. Das heißt, wenn Sie ein stochastisches Modell 1000 Mal trainiert haben, können Sie eine Verzerrung oder Varianz der Parameterwerte beobachten. Ein High-Bias-Modell hat konsistente Parameter, die sich jedoch von einer „optimalen“ Lösung unterscheiden. Ein Modell mit hoher Varianz erhält bei jedem Training unterschiedliche Werte für die Parameter.
quelle