Ich bin gespannt auf diejenigen unter Ihnen, die über umfangreiche Erfahrung in der Zusammenarbeit mit anderen Forschern verfügen. Was sind einige der häufigsten Missverständnisse in Bezug auf lineare Regression, denen Sie begegnen?
Ich denke, kann eine nützliche Übung sein, um über häufige Missverständnisse im Voraus nachzudenken, um
Nehmen Sie die Fehler der Menschen vorweg und können Sie erfolgreich artikulieren, warum ein Missverständnis falsch ist
Erkenne, ob ich selbst Missverständnisse habe!
Ein paar grundlegende Dinge, an die ich denken kann:
Unabhängige / abhängige Variablen müssen normalverteilt sein
Variablen müssen für eine genaue Interpretation standardisiert sein
Irgendwelche anderen?
Alle Antworten sind willkommen.
Antworten:
Falsche Prämisse: Ein bedeutet, dass keine starke Beziehung zwischen DV und IV besteht.β^≈ 0
Nichtlineare funktionale Beziehungen gibt es zuhauf, und dennoch erzeugen Daten, die durch viele solcher Beziehungen erzeugt werden, häufig Steigungen nahe Null, wenn man annimmt, dass die Beziehung linear oder sogar annähernd linear sein muss.
In einer anderen falschen Prämisse gehen Forscher häufig davon aus - möglicherweise, weil viele einführende Regressionslehrbücher lehren -, dass man "auf Nichtlinearität prüft", indem man eine Reihe von Regressionen des DV auf polynomielle Erweiterungen des IV aufbaut (z. B. , gefolgt von , gefolgt vonY ~ & beta; 0 + β X X + β X 2 X 2 + ε Y ~ β 0 + β X X + β X 2 X 2 + β X 3 X 3 + εY.∼ β0+ βXX+ ε Y.∼ β0+ βXX+ βX2X2+ ε Y∼β0+βXX+βX2X2+βX3X3+ε , usw.). So wie eine gerade Linie eine nichtlineare funktionale Beziehung zwischen DV und IV nicht gut darstellen kann, kann eine Parabel nicht gut eine unendliche Anzahl nichtlinearer Beziehungen darstellen (z. B. Sinus-, Zykloiden-, Stufenfunktionen-, Sättigungseffekt-, S-Kurven-Beziehungen usw. bis ins Unendliche ). Man kann stattdessen einen Regressionsansatz wählen, der keine bestimmte funktionale Form annimmt (z. B. Linienglätter, GAMs usw. ausführen).
Eine dritte falsche Annahme ist, dass eine Erhöhung der Anzahl der geschätzten Parameter zwangsläufig zu einem Verlust der statistischen Aussagekraft führt. Dies kann falsch sein, wenn die wahre Beziehung nicht linear ist und mehrere Parameter für die Schätzung erforderlich sind (z. B. erfordert eine "gebrochene Stange" -Funktion nicht nur die Achsen- und Steigungsterme einer geraden Linie, sondern erfordert auch einen Punkt, an dem sich die Steigung ändert und wie viel Steigung ändert sich um Schätzungen auch): Die Residuen eines falsch spezifizierten Modells (z. B. einer geraden Linie) können sehr groß werden (im Verhältnis zu einer richtig spezifizierten funktionalen Beziehung), was zu einer geringeren Ablehnungswahrscheinlichkeit und breiteren Konfidenzintervallen und Vorhersageintervallen führt (zusätzlich zu Schätzungen, die verzerrt sind). .
quelle
Es ist weit verbreitet anzunehmen, dass nur Daten einem Messfehler unterliegen (oder zumindest, dass dies der einzige Fehler ist, den wir berücksichtigen werden). Dies ignoriert jedoch die Möglichkeit - und die Konsequenzen - von Fehlern bei den Messungen. Dies kann in Beobachtungsstudien besonders akut sein, in denen die Variablen nicht experimentell kontrolliert werden.x xy x x
Regressionsverdünnung oder Regressionsabschwächung ist das von Spearman (1904) erkannte Phänomen, bei dem die geschätzte Regressionssteigung bei der einfachen linearen Regression durch das Vorhandensein eines Messfehlers in der unabhängigen Variablen gegen Null verschoben wird. Angenommen, die wahre Steigung ist positiv - der Effekt des Zitterns der-Koordinatender Punkte(möglicherweise am einfachsten als horizontales "Verwischen" der Punkte sichtbar) besteht darin, die Regressionslinie weniger steil zu machen. Intuitiv istes jetzt wahrscheinlicher, dassPunkte mit einem großenaufgrund eines positiven Messfehlers so sind, während derWert eher den wahren (fehlerfreien) Wert vonwiderspiegeltund daher niedriger ist als die wahre Linie für die beobachtetenx y x xx x y x x .
In komplexeren Modellen können Messfehler in Variablen kompliziertere Auswirkungen auf die Parameterschätzungen haben. Es gibt Fehler in Variablenmodellen , die solche Fehler berücksichtigen. Spearman schlug einen Korrekturfaktor zur Abschwächung der bivariaten Korrelationskoeffizienten vor, und andere Korrekturfaktoren wurden für komplexere Situationen entwickelt. Solche Korrekturen können jedoch schwierig sein - insbesondere im multivariaten Fall und bei Vorhandensein von Störfaktoren - und es kann umstritten sein, ob die Korrektur eine echte Verbesserung darstellt, siehe z. B. Smith und Phillips (1996).x
Ich nehme also an, dass dies zwei falsche Vorstellungen für den Preis von einem sind - einerseits ist es ein Fehler zu glauben, dass die Art und Weise, wie wir schreiben , "der ganze Fehler ist im " bedeutet, und genau das zu ignorieren physikalisch reale Möglichkeit von Messfehlern in den unabhängigen Variablen. Auf der anderen Seite kann es nicht ratsam sein, "Korrekturen" für Messfehler in all solchen Situationen blind anzuwenden, wie z. B. in Form einer Ruckreaktion (obwohl es durchaus eine gute Idee sein kann, Schritte zu unternehmen, um den Messfehler zu reduzieren). .yy=Xβ+ε y
(Ich sollte wahrscheinlich auch einen Link zu einigen anderen gängigen Fehler-in-Variablen - Modellen, in zunehmendem Maße allgemeiner Ordnung: orthogonale Regression , Deming Regression und Total Least Squares .)
Verweise
Smith, GD & Phillips, AN (1996). " Inflation in der Epidemiologie: 'Der Beweis und das Maß der Assoziation zwischen zwei Dingen' revidiert. " British Medical Journal , 312 (7047), 1659–1661.
Spearman, C. (1904). "Der Beweis und das Maß der Assoziation zwischen zwei Dingen." American Journal of Psychology 15 : 72–101.
quelle
Es gibt einige Standardmissverständnisse, die in diesem Kontext sowie in anderen statistischen Kontexten zutreffen: z. B. die Bedeutung von Werten, fälschlicherweise abgeleitete Kausalität usw.p
Ein paar Missverständnisse, die meiner Meinung nach spezifisch für multiple Regression sind, sind:
quelle
Ich würde sagen , die erste Du Liste ist wahrscheinlich die häufigste - und vielleicht die am häufigsten gelehrt , dass Art und Weise - von den Dingen , die einfach gesehen als falsch, sind aber hier sind einige andere , die weniger in einigen Situationen klar sind ( ob sie wirklich zutreffen), aber möglicherweise noch mehr Analysen beeinflussen und vielleicht noch schwerwiegender. Diese werden oft einfach nie erwähnt, wenn das Thema der Regression eingeführt wird.
Als Zufallsstichprobe aus der Grundgesamtheit interessierender Gruppen von Beobachtungen behandeln, die möglicherweise nicht repräsentativ sein können (geschweige denn zufällig ausgewählt). [Einige Studien könnten stattdessen als etwas angesehen werden, das den Convenience-Proben näher kommt]
Ignorieren Sie bei Beobachtungsdaten einfach die Konsequenzen, wenn Sie wichtige Treiber des Prozesses auslassen, die die Schätzungen der Koeffizienten der eingeschlossenen Variablen (in vielen Fällen sogar, um wahrscheinlich ihr Vorzeichen zu ändern) verzerren würden, und versuchen Sie nicht, Möglichkeiten des Umgangs zu erwägen mit ihnen (ob aus Unkenntnis des Problems oder weil sie sich einfach nicht bewusst sind, dass etwas getan werden kann). [Einige Forschungsbereiche haben dieses Problem häufiger als andere, sei es aufgrund der Art der gesammelten Daten oder weil Personen in einigen Anwendungsbereichen mit größerer Wahrscheinlichkeit über das Problem unterrichtet wurden.]
Zufällige Regression (meistens mit Daten, die im Laufe der Zeit gesammelt wurden). [Auch wenn die Leute wissen, dass es passiert, gibt es ein weiteres weit verbreitetes Missverständnis, dass es ausreicht, sich nur vom vermeintlichen stationären zu unterscheiden, um das Problem vollständig zu vermeiden.]
Es gibt natürlich viele andere, die man erwähnen könnte (die Behandlung als unabhängige Daten, die mit ziemlicher Sicherheit seriell korreliert oder sogar integriert werden, kann zum Beispiel ungefähr so häufig sein).
Sie werden vielleicht bemerken, dass Beobachtungsstudien von Daten, die im Laufe der Zeit gesammelt wurden, von all diesen auf einmal betroffen sein können ... Diese Art von Studie ist jedoch in vielen Forschungsbereichen, in denen Regression ein Standardinstrument ist, sehr verbreitet. Wie sie zur Veröffentlichung gelangen können, ohne dass ein einzelner Rezensent oder Redakteur etwas über mindestens einen von ihnen weiß und in den Schlussfolgerungen einen gewissen Haftungsausschluss verlangt, macht mir weiterhin Sorgen.
In der Statistik treten Probleme mit nicht reproduzierbaren Ergebnissen auf, wenn es sich um recht sorgfältig kontrollierte Experimente handelt (in Kombination mit möglicherweise nicht so sorgfältig kontrollierten Analysen). Sobald man also diese Grenzen überschreitet, um wie viel schlimmer muss die Reproduzierbarkeitssituation sein?
quelle
Ich würde diese Missverständnisse wahrscheinlich nicht als „Missverständnisse“ bezeichnen, aber möglicherweise als häufig auftretende Probleme, die den Forschern möglicherweise nicht bewusst sind.
Auf der falschen Seite der Dinge:
quelle
Nach meiner Erfahrung vertreten die Schüler häufig die Ansicht, dass Fehlerquadrate (oder OLS-Regression) von Natur aus angemessen, genau und insgesamt gut zu verwenden sind oder sogar ohne Alternative sind. Ich habe häufig gesehen, dass OLS zusammen mit den Bemerkungen beworben wurde, dass es "extremeren / abweichenden Beobachtungen mehr Gewicht beimisst", und die meiste Zeit wird zumindest impliziert, dass dies eine wünschenswerte Eigenschaft ist. Dieser Begriff kann später geändert werden, wenn die Behandlung von Ausreißern und robusten Ansätzen eingeführt wird, aber an diesem Punkt ist der Schaden angerichtet. Die weit verbreitete Verwendung von Quadratfehlern hat historisch mehr mit ihrer mathematischen Bequemlichkeit zu tun als mit einem Naturgesetz der tatsächlichen Fehlerkosten.
Insgesamt könnte mehr Gewicht auf das Verständnis gelegt werden, dass die Wahl der Fehlerfunktion etwas willkürlich ist. Im Idealfall sollte jede Wahl der Strafe innerhalb eines Algorithmus von der entsprechenden realen Kostenfunktion geleitet werden, die mit potenziellen Fehlern verbunden ist (dh unter Verwendung eines Entscheidungsrahmens). Warum nicht zuerst dieses Prinzip aufstellen und dann sehen, wie gut wir es können?
quelle
Ein weiteres häufiges Missverständnis ist, dass der Fehlerausdruck (oder die Störung in der ökonometrischen Sprache) und die Residuen dasselbe sind.
Der Fehlerterm ist eine Zufallsvariable im Echtmodell- oder Datenerzeugungsprozess und wird häufig als einer bestimmten Verteilung folgend angenommen, während die Residuen die Abweichungen der beobachteten Daten vom angepassten Modell sind. Als solche können die Residuen als Schätzungen der Fehler betrachtet werden.
quelle
Das häufigste Missverständnis, dem ich begegne, ist, dass die lineare Regression die Normalität von Fehlern voraussetzt. Das tut es nicht. Normalität ist in Verbindung mit einigen Aspekten der linearen Regression nützlich, z. Auch für diese Dinge gibt es asymptotische Werte für nicht normale Verteilungen.
Die zweithäufigste ist eine Ansammlung von Verwirrungen in Bezug auf Endogenität, z. B. wenn man mit Rückkopplungsschleifen nicht vorsichtig ist. Wenn es eine Rückkopplungsschleife von Y zurück zu X gibt, ist dies ein Problem.
quelle
Möglicherweise hängt dies auch mit dem Unterschied zwischen OLS und der kleinsten Quadrate oder der ersten Hauptkomponente zusammen.
quelle
Das, was ich oft gesehen habe, ist ein Missverständnis über die Anwendbarkeit der linearen Regression in bestimmten Anwendungsfällen in der Praxis.
Nehmen wir beispielsweise an, dass die Variable, an der wir interessiert sind, die Anzahl von Elementen (Beispiel: Besucher auf der Website) oder das Verhältnis von Elementen (Beispiel: Conversion-Raten) ist. In solchen Fällen kann die Variable besser modelliert werden, indem Verknüpfungsfunktionen wie Poisson (Anzahl), Beta (Verhältnisse) usw. verwendet werden. Daher ist die Verwendung eines verallgemeinerten Modells mit geeigneterer Verknüpfungsfunktion besser geeignet. Aber nur weil die Variable nicht kategorisch ist, habe ich Leute gesehen, die mit einer einfachen linearen Regression begannen (Link-Funktion = Identität). Auch wenn wir die Auswirkungen auf die Genauigkeit nicht berücksichtigen, sind die Modellierungsannahmen hier ein Problem.
quelle
Folgendes wird meiner Meinung nach von Forschern häufig übersehen:
quelle
Ein weiteres häufiges Missverständnis ist, dass die Schätzungen (angepassten Werte) für Transformationen nicht invariant sind, z
Dies tritt immer dann auf, wenn Sie eine Log-Transformation Ihrer Daten durchführen, eine lineare Regression anpassen und dann den angepassten Wert potenzieren. Die Leute lesen dies als Regression. Dies ist nicht der Mittelwert, dies ist der Median (wenn die Dinge wirklich log-normal verteilt sind).
quelle