Eine Grundannahme bei der Verwendung von Regressionsmodellen zur Inferenz ist, dass "alle relevanten Prädiktoren" in die Prädiktionsgleichung einbezogen wurden. Der Grund dafür ist, dass die Nichteinbeziehung eines wichtigen Faktors aus der realen Welt zu verzerrten Koeffizienten und damit zu ungenauen Schlussfolgerungen führt (dh eine variable Verzerrung wird weggelassen).
Aber in der Forschungspraxis habe ich noch nie jemanden gesehen, der etwas enthält, das "allen relevanten Prädiktoren" ähnelt . Viele Phänomene haben eine Vielzahl wichtiger Ursachen, und es wäre sehr schwierig, wenn nicht unmöglich, sie alle zu berücksichtigen. Ein einfaches Beispiel ist die Modellierung von Depressionen als Folge: Niemand hat etwas in die Nähe eines Modells gebracht, das "alle relevanten Variablen" enthält: z. etc...
Darüber hinaus würde die Anpassung eines solch komplexen Modells zu äußerst instabilen Schätzungen führen, sofern nicht sehr große Stichprobengrößen vorliegen.
Meine Frage ist sehr einfach: Ist die Annahme / der Ratschlag, "alle relevanten Prädiktoren einzuschließen", nur etwas, was wir "sagen", aber niemals wirklich bedeuten? Wenn nicht, warum geben wir dann einen konkreten Modellierungshinweis?
Und bedeutet dies, dass die meisten Koeffizienten wahrscheinlich irreführend sind? (z. B. eine Studie zu Persönlichkeitsfaktoren und Depressionen, bei der nur mehrere Prädiktoren verwendet werden). Mit anderen Worten, wie groß ist das Problem für die Schlussfolgerungen unserer Wissenschaften?
Antworten:
Es ist interessant, dass beim normalen linearen Modell weggelassene Kovariaten, insbesondere wenn sie orthogonal zu eingeschlossenen Kovariaten sind, nur als Vergrößerung des Fehlerterms angesehen werden können. In nichtlinearen Modellen (Logistik, Cox, viele andere) kann das Weglassen von Variablen die Auswirkungen aller im Modell enthaltenen Variablen beeinflussen (z. B. aufgrund der Nichtkollabierbarkeit des Quotenverhältnisses).
quelle
Ja, Sie müssen alle "relevanten Variablen" einschließen, aber Sie müssen klug sein. Sie müssen sich überlegen, wie Sie die Experimente konstruieren können, mit denen Sie die Auswirkungen Ihres Phänomens von nicht verwandten Themen abgrenzen können. Bevor Sie in die Statistik einsteigen, müssen Sie das Schwergewicht in Ihrer Domäne und nicht in der Statistik ausführen.
Ich ermutige Sie, nicht zynisch zu sein, wenn Sie alle relevanten Variablen einbeziehen, weil dies nicht nur ein nobles Ziel ist, sondern auch, weil es oft möglich ist. Wir sagen das nicht nur, um es zu sagen. Wir meinen es wirklich so. Das Entwerfen von Experimenten und Studien, die in der Lage sind, alle relevanten Variablen einzuschließen, macht die Wissenschaft wirklich interessant und unterscheidet sich von "Experimenten" mit mechanischen Kesselplatten.
Um meine Aussage zu begründen, gebe ich Ihnen ein Beispiel dafür, wie Galileo die Beschleunigung untersucht hat. Hier ist seine Beschreibung eines tatsächlichen Experiments (von dieser Webseite ):
Achten Sie darauf, wie er die Zeit gemessen hat. Es ist so grob, dass es mich daran erinnert, wie unnatürliche Wissenschaften heutzutage ihre Variablen messen und an "Kundenzufriedenheit" oder "Nützlichkeit" denken. Er erwähnt, dass der Messfehler übrigens innerhalb einer zehnten Zeiteinheit lag.
Hat er alle relevanten Variablen einbezogen? Ja er hat. Jetzt muss man verstehen, dass alle Körper durch die Schwerkraft voneinander angezogen werden. Um also theoretisch die exakte Kraft auf den Ball zu berechnen, muss jeder Körper im Universum zur Gleichung hinzugefügt werden. Viel wichtiger ist, dass er Oberflächenwiderstand, Luftwiderstand, Drehimpuls usw. nicht mit einbezog. Haben diese alle seine Messungen beeinflusst? Ja. Sie waren jedoch für das, was er studierte, nicht relevant, da er in der Lage war, ihre Auswirkungen zu verringern oder zu beseitigen, indem er die Auswirkungen der Eigenschaft, die er studierte, isolierte.
Nun, würden Sie sagen, dass sein Koeffizient (genau 2 fürt2 ) war irreführend, weil er "Luftdruck- und Temperaturänderungen zwischen den Experimenten nicht kontrollierte"? Nein. Trotz aller Probleme und Einschränkungen konnte er das große Bewegungsgesetz, das bis heute für wahnsinnige Präzision gilt, korrekt aufstellen! Dies gelang ihm ohne Statistikpakete und Computer, da er ein großartiges Experiment so gestaltete, dass der statistische Teil trivial und nahezu irrelevant wurde. Das ist die Ideensituation, die Sie sein möchten.
quelle
Damit die Annahmen des Regressionsmodells perfekt gelten, müssen alle relevanten Prädiktoren einbezogen werden. Aber keine der Annahmen in einer statistischen Analyse ist perfekt und ein Großteil der statistischen Praxis basiert auf "Close Enough".
Bei der Konzeption von Experimenten und der richtigen Randomisierung kann der Effekt von Begriffen, die nicht in den Modellen enthalten sind, häufig ignoriert werden (bei gleicher Wahrscheinlichkeit der Randomisierung). Eine Regression wird jedoch normalerweise verwendet, wenn eine vollständige Randomisierung nicht möglich ist, um alle möglichen Variablen zu berücksichtigen, die nicht im Modell enthalten sind. Daher wird Ihre Frage wichtig.
In so gut wie jedem jemals passenden Regressionsmodell fehlen wahrscheinlich einige potenzielle Prädiktoren, aber "Ich weiß nicht" ohne weitere Klärung würde es arbeitenden Statistikern nicht ermöglichen, weiterzuarbeiten. Deshalb versuchen wir unser Bestes und dann herauszufinden, wie groß der Unterschied ist zwischen den Annahmen und der Realität werden unsere Ergebnisse beeinflussen. In einigen Fällen ist der Unterschied zu den Annahmen sehr gering, und wir machen uns keine großen Sorgen um den Unterschied, in anderen Fällen kann er jedoch sehr schwerwiegend sein.
Eine Option, wenn Sie wissen, dass das Modell möglicherweise keine relevanten Prädiktoren enthält, ist die Durchführung einer Sensitivitätsanalyse. Dies misst, wie viel Verzerrung basierend auf potenziellen Beziehungen zu den nicht gemessenen Variablen möglich wäre. Dieses Papier:
gibt einige Werkzeuge (und Beispiele) für eine Sensitivitätsanalyse.
quelle