Gibt es zwei Definitionen des Wortes Voreingenommenheit?

7

Ich höre, dass der Begriff Voreingenommenheit in der statistischen Literatur häufig verwendet wird.

Zum Beispiel,

Durch die Verwendung der mittleren Imputation fügen wir unserer Schätzung eine Verzerrung hinzu.

Ein anderes Beispiel,

Der Bias-Varianz-Kompromiss ist ein wichtiges Thema bei der Auswahl von Modellen.

Sind das die gleichen "Vorurteile"?

Franck Dernoncourt
quelle
1
Es gibt tatsächlich 12 Definitionen: dictionary.com/browse/bias?s=t
StatsStudent
1
@StatsStudent das sind keine Definitionen seiner statistischen Bedeutung
Tim
Aber wenn Sie "Voreingenommenheit" hören, selbst in der statistischen Literatur, hat es nicht unbedingt eine statistische Bedeutung ...
StatsStudent

Antworten:

3

Der Begriff "Bias" hat in der statistischen Literatur eine spezifische Definition (die Differenz zwischen dem erwarteten Wert eines Schätzers und dem zu schätzenden Objekt), aber das heißt nicht, dass er seine ursprüngliche, allgemeinere Bedeutung verliert. Welches beabsichtigt ist, hängt vom Kontext ab, und oft haben Sie eine Mischung aus beiden.

Ich würde sagen, dass die erste Verwendung im Allgemeinen die weniger genaue Art ist, da die Datenimputation eine Methode ist, die bei angewandten Problemen verwendet wird, bei denen nicht angenommen werden muss, dass überhaupt ein wahrer Wert des Parameters existiert. Hier ist es im Grunde gleichbedeutend mit "gegen Null geschrumpft".

Was die zweite Verwendung betrifft, so leitet sich der Begriff Bias-Varianz-Kompromiss ursprünglich aus der formaleren Definition von Bias ab, aber ich würde dennoch sagen, dass dies eher auf die allgemeine "Inflexibilität" eines Modellanpassungsverfahrens verweist und nicht notwendigerweise die Frage, ob eine geschätzte Regressionsfunktion im Durchschnitt korrekt ist oder nicht.

dsaxton
quelle
Hm - für den ersten: Der springende Punkt bei der mittleren Imputation ist die Beibehaltung des Mittelwerts der ursprünglichen Stichprobe. Daher sollten beide Parameter gleich sein - es gibt also keine Verzerrung. \
Ich bin mir ziemlich sicher, dass es sich um die Abweichung der Koeffizientenschätzung handelt und nicht um die Abweichung des Stichprobenmittelwerts. Außerdem muss der Stichprobenmittelwert nicht unverzerrt sein, wenn Daten fehlen.
Dsaxton
2

Ich stimme zu, dass diese Terminologie verwirrend ist. Bias hat in beiden Kontexten eine Bedeutung: Entfernung von Ideal- oder Zielwerten, aber die Interpretation hängt davon ab, über welchen Raum wir sprechen. Ich werde erklären, was ich in Bezug auf die beiden Zitate in Ihrer Frage meine.

Durch die Verwendung der mittleren Imputation fügen wir unserer Schätzung eine Verzerrung hinzu.

Dies bezieht sich auf eine Verzerrung im Datenraum. Die mittlere Imputation beeinflusst die Position Ihrer Schätzungen relativ zu den Zielwerten.

Der Bias-Varianz-Kompromiss ist ein wichtiges Thema bei der Auswahl von Modellen.

Dies bezieht sich auf Verzerrung und Varianz im Parameterraum von Modellen. Das heißt, wenn Sie ein stochastisches Modell 1000 Mal trainiert haben, können Sie eine Verzerrung oder Varianz der Parameterwerte beobachten. Ein High-Bias-Modell hat konsistente Parameter, die sich jedoch von einer „optimalen“ Lösung unterscheiden. Ein Modell mit hoher Varianz erhält bei jedem Training unterschiedliche Werte für die Parameter.

Alan Schoen
quelle