Minimierung der Verzerrung bei der erklärenden Modellierung, warum? (Galit Shmuelis "Erklären oder Vorhersagen")

15

Diese Frage bezieht sich auf Galit Shmuelis Aufsatz "To Explain or to Predict" .

Im Einzelnen schreibt Professor Shmueli in Abschnitt 1.5, "Erklärung und Vorhersage sind unterschiedlich":

Bei der erklärenden Modellierung liegt der Schwerpunkt auf der Minimierung der Verzerrung, um die genaueste Darstellung der zugrunde liegenden Theorie zu erhalten.

Das hat mich jedes Mal verwirrt, wenn ich die Zeitung gelesen habe. Inwiefern liefert die Minimierung der Verzerrung in Schätzungen die genaueste Darstellung der zugrunde liegenden Theorie?

Ich habe auch Professor Shmuelis Vortrag hier gesehen , der auf dem JMP Discovery Summit 2017 gehalten wurde.

... Dinge, die wie Schrumpfmodelle sind, Ensembles, die werden Sie nie sehen. Da diese Modelle konstruktionsbedingt eine Verzerrung einführen, um die Gesamtverzerrung / -varianz zu verringern. Deshalb werden sie nicht da sein, das ergibt theoretisch keinen Sinn. Warum sollten Sie Ihr Modell absichtlich voreingenommen machen?

Dies wirft kein wirkliches Licht auf meine Frage und bringt lediglich die Behauptung zum Ausdruck, die ich nicht verstehe.

Wenn die Theorie viele Parameter hat und wir nur wenige Daten haben, um sie zu schätzen, wird der Schätzfehler von der Varianz dominiert. Warum wäre es in dieser Situation ungeeignet, ein voreingenommenes Schätzverfahren wie die Gratregression zu verwenden (was zu voreingenommenen Schätzungen einer geringeren Varianz führt)?

Matthew Drury
quelle
1
Gute Frage! +1 Ich habe eine ähnliche Frage gestellt unter stats.stackexchange.com/questions/204386/…
Adrian
@ Adrian Das ist eine gute Frage, gut gestellt. Ich würde auch gerne eine gründliche Antwort auf diese Frage sehen!
Matthew Drury

Antworten:

6

Dies ist in der Tat eine große Frage, die eine Einführung in die Welt der Verwendung statistischer Modelle in der ökonometrischen und sozialwissenschaftlichen Forschung erfordert (wie ich gesehen habe, beschäftigen sich angewandte Statistiker und Data Miner, die beschreibende oder prädiktive Arbeiten ausführen, normalerweise nicht damit Voreingenommenheit dieser Form). Der Begriff "Voreingenommenheit", den ich in dem Artikel verwendete, wird von Ökonomen und Sozialwissenschaftlern als ernsthafte Gefahr für die Schlussfolgerung der Kausalität aus empirischen Studien angesehen. Es bezieht sich auf den Unterschied zwischen Ihrem statistischen Modell und dem zugrunde liegenden kausaltheoretischen Modell . Ein verwandter Begriff ist "Modellspezifikation", ein Thema, das in der Ökonometrie stark gelehrt wird, da es wichtig ist, "Ihr Regressionsmodell richtig zu spezifizieren" (in Bezug auf die Theorie), wenn Ihr Ziel die kausale Erklärung ist. SehenEine kurze Beschreibung finden Sie im Wikipedia-Artikel zur Spezifikation . Ein wichtiges Problem bei der Fehlspezifikation ist die zu geringe Spezifikation mit der Bezeichnung "Omitted Variable Bias" (OVB), bei der Sie eine erklärende Variable aus der Regression auslassen, die (der Theorie nach) hätte vorhanden sein müssen. Dies ist eine Variable, die mit der abhängigen Variablen und korreliert mit mindestens einer der erklärenden Variablen. Siehe diese übersichtliche Beschreibung , in der die Auswirkungen dieser Art von Verzerrung erläutert werden. Aus theoretischer Sicht beeinträchtigt OVB Ihre Fähigkeit, Kausalität aus dem Modell abzuleiten.

Im Anhang meiner Arbeit zu erklären oder vorherzusagen? Es gibt ein Beispiel, das zeigt, wie ein unterbestimmtes ("falsches") Modell manchmal eine höhere Vorhersagekraft haben kann. Aber jetzt können Sie hoffentlich sehen, warum dies dem Ziel eines "guten kausalen Erklärungsmodells" widerspricht.

Galit Shmueli
quelle
2
Ich denke, es gibt immer noch viel Verwirrung über Vorhersagemodelle und Erklärungsmodelle. Ich habe ein Interview mit einem Datenwissenschaftler eines großen Versicherungsunternehmens geführt und gefragt, ob er Vorhersagemodelle oder Erklärungsmodelle in seinem Team erstellt. Er sagte "es ist nicht wirklich wichtig" - ich glaube nicht, dass er den Unterschied kannte.
RobertF