Was sind einige der häufigsten Missverständnisse über lineare Regression?

70

Ich bin gespannt auf diejenigen unter Ihnen, die über umfangreiche Erfahrung in der Zusammenarbeit mit anderen Forschern verfügen. Was sind einige der häufigsten Missverständnisse in Bezug auf lineare Regression, denen Sie begegnen?

Ich denke, kann eine nützliche Übung sein, um über häufige Missverständnisse im Voraus nachzudenken, um

Nehmen Sie die Fehler der Menschen vorweg und können Sie erfolgreich artikulieren, warum ein Missverständnis falsch ist

Erkenne, ob ich selbst Missverständnisse habe!

Ein paar grundlegende Dinge, an die ich denken kann:

Unabhängige / abhängige Variablen müssen normalverteilt sein

Variablen müssen für eine genaue Interpretation standardisiert sein

Irgendwelche anderen?

Alle Antworten sind willkommen.

regression multiple-regression ST21
quelle

5

Dies sollte wahrscheinlich CW machen, da es eine Liste von Möglichkeiten einlädt und es wird schwierig zu sagen sein, dass man objektiv die 'richtige Antwort' ist.

gung - Reinstate Monica

Viele Leute, die ich kenne, bestehen immer noch darauf, ihre Daten zu linearisieren und dabei zu belassen, selbst wenn die von ihnen verwendete Computerumgebung eine gute Unterstützung für nichtlineare Regression bietet. (Die Linearisierungen sind natürlich nützlich als Punkte für die nichtlinearen Anpassungen beginnen, aber diese Menschen nicht einmal erkennen , dass.)

JM ist kein Statistiker

1

@gung: Ist Community Wiki immer noch eine Sache? CW war netzwerkweit größtenteils veraltet und ging es nie wirklich darum, marginale, häufig gestellte Fragen auf einer großen Liste zu stellen, um aus dem Gefängnis entlassen zu werden, oder um Personen den Ruf zu rauben, den sie sich sonst verdient hätten, wenn die Frage überhaupt thematisiert worden wäre. Sie können es nur noch auf eine Frage anwenden, wenn Sie einen Moderator bitten, dies zu tun.

Robert Harvey

1

Wenn Gott die Welt linear gemacht hätte, gäbe es keine nichtlineare Regression.

Mark L. Stone

1

@RobertHarvey: Ja, es ist immer noch eine Sache bei CrossValidated (meiner Meinung nach leider). Wir haben einige hitzige Metadiskussionen darüber geführt ( z. B. diese ), aber der aktuelle Status Quo ist, dass der CW-Status für alle meinungsbasierten Fragen oder Fragen mit großen Listen erzwungen wird, die in Bezug auf das Thema offen bleiben.

Amöbe sagt Reinstate Monica

38

Falsche Prämisse: Ein bedeutet, dass keine starke Beziehung zwischen DV und IV besteht. $\hat{\beta} \approx 0$
Nichtlineare funktionale Beziehungen gibt es zuhauf, und dennoch erzeugen Daten, die durch viele solcher Beziehungen erzeugt werden, häufig Steigungen nahe Null, wenn man annimmt, dass die Beziehung linear oder sogar annähernd linear sein muss.

In einer anderen falschen Prämisse gehen Forscher häufig davon aus - möglicherweise, weil viele einführende Regressionslehrbücher lehren -, dass man "auf Nichtlinearität prüft", indem man eine Reihe von Regressionen des DV auf polynomielle Erweiterungen des IV aufbaut (z. B. , gefolgt von , gefolgt von $Y \sim \beta_{0} + \beta_{X}X + \varepsilon$ $Y \sim \beta_{0} + \beta_{X}X + \beta_{X^{2}}X^{2} + \varepsilon$ $Y \sim \beta_{0} + \beta_{X}X + \beta_{X^{2}}X^{2} + \beta_{X^{3}}X^{3} + \varepsilon$ , usw.). So wie eine gerade Linie eine nichtlineare funktionale Beziehung zwischen DV und IV nicht gut darstellen kann, kann eine Parabel nicht gut eine unendliche Anzahl nichtlinearer Beziehungen darstellen (z. B. Sinus-, Zykloiden-, Stufenfunktionen-, Sättigungseffekt-, S-Kurven-Beziehungen usw. bis ins Unendliche ). Man kann stattdessen einen Regressionsansatz wählen, der keine bestimmte funktionale Form annimmt (z. B. Linienglätter, GAMs usw. ausführen).

Eine dritte falsche Annahme ist, dass eine Erhöhung der Anzahl der geschätzten Parameter zwangsläufig zu einem Verlust der statistischen Aussagekraft führt. Dies kann falsch sein, wenn die wahre Beziehung nicht linear ist und mehrere Parameter für die Schätzung erforderlich sind (z. B. erfordert eine "gebrochene Stange" -Funktion nicht nur die Achsen- und Steigungsterme einer geraden Linie, sondern erfordert auch einen Punkt, an dem sich die Steigung ändert und wie viel Steigung ändert sich um Schätzungen auch): Die Residuen eines falsch spezifizierten Modells (z. B. einer geraden Linie) können sehr groß werden (im Verhältnis zu einer richtig spezifizierten funktionalen Beziehung), was zu einer geringeren Ablehnungswahrscheinlichkeit und breiteren Konfidenzintervallen und Vorhersageintervallen führt (zusätzlich zu Schätzungen, die verzerrt sind). .

Alexis
quelle

4

(+1) Unstimmigkeiten: (1) Ich glaube nicht, dass einleitende Texte bedeuten, dass alle Kurven Polynomfunktionen sind, sondern dass sie durch Polynomfunktionen über einen bestimmten Bereich gut genug angenähert werden können. Sie fallen also in die Klasse der "Regressionsansätze, die keine bestimmte funktionale Form annehmen", die durch einen "Hyperparameter" gesteuert wird, der die Wackeligkeit spezifiziert: die Spanne für Löss, die Nr. Knoten für die Regression auf Spline-Basis, Grad für die Regression auf Polynombasis. (Ich schwenke keine Flagge für Polynome - es ist bekannt, dass sie an den Enden mehr

herumschlagen,

2

... geben Sie ihnen nur ihre Berechtigung.) (2) Eine Sinuskurve könnte als solche innerhalb des linearen Modellrahmens passen. ein Sättigungseffekt unter Verwendung eines nichtlinearen Modells (beispielsweise eine rechteckige Hyperbel); & c. Natürlich haben Sie nichts anderes gesagt, aber es lohnt sich vielleicht darauf hinzuweisen, dass die Anwendung dieser Einschränkungen in Ihrem Modell hilfreich ist, wenn Sie wissen, dass es einen Zyklus oder eine Asymptote gibt.

Scortchi - Wiedereinsetzung von Monica

2

@Scortchi da konnte ich nicht mehr zustimmen! (In der Tat kann bei einer unendlichen Anzahl von Polynomen jede Funktion perfekt dargestellt werden.) :)

Alexis

2

@Alexis Versuchen Sie, Conways Basis 13-Funktion durch Polynome zu approximieren. :)

Solomonoffs Geheimnis

1

Oder ...

χ_{Q}

$\chi_{\mathbb{Q}}$

S. Kolassa - Monica

22

Es ist weit verbreitet anzunehmen, dass nur Daten einem Messfehler unterliegen (oder zumindest, dass dies der einzige Fehler ist, den wir berücksichtigen werden). Dies ignoriert jedoch die Möglichkeit - und die Konsequenzen - von Fehlern bei den Messungen. Dies kann in Beobachtungsstudien besonders akut sein, in denen die Variablen nicht experimentell kontrolliert werden. $y$ $x$ $x$

Regressionsverdünnung oder Regressionsabschwächung ist das von Spearman (1904) erkannte Phänomen, bei dem die geschätzte Regressionssteigung bei der einfachen linearen Regression durch das Vorhandensein eines Messfehlers in der unabhängigen Variablen gegen Null verschoben wird. Angenommen, die wahre Steigung ist positiv - der Effekt des Zitterns der-Koordinatender Punkte(möglicherweise am einfachsten als horizontales "Verwischen" der Punkte sichtbar) besteht darin, die Regressionslinie weniger steil zu machen. Intuitiv istes jetzt wahrscheinlicher, dassPunkte mit einem großenaufgrund eines positiven Messfehlers so sind, während derWert eher den wahren (fehlerfreien) Wert vonwiderspiegeltund daher niedriger ist als die wahre Linie für die beobachteten $x$ $x$ $y$ $x$ $x$ .

In komplexeren Modellen können Messfehler in Variablen kompliziertere Auswirkungen auf die Parameterschätzungen haben. Es gibt Fehler in Variablenmodellen , die solche Fehler berücksichtigen. Spearman schlug einen Korrekturfaktor zur Abschwächung der bivariaten Korrelationskoeffizienten vor, und andere Korrekturfaktoren wurden für komplexere Situationen entwickelt. Solche Korrekturen können jedoch schwierig sein - insbesondere im multivariaten Fall und bei Vorhandensein von Störfaktoren - und es kann umstritten sein, ob die Korrektur eine echte Verbesserung darstellt, siehe z. B. Smith und Phillips (1996). $x$

Ich nehme also an, dass dies zwei falsche Vorstellungen für den Preis von einem sind - einerseits ist es ein Fehler zu glauben, dass die Art und Weise, wie wir schreiben , "der ganze Fehler ist im " bedeutet, und genau das zu ignorieren physikalisch reale Möglichkeit von Messfehlern in den unabhängigen Variablen. Auf der anderen Seite kann es nicht ratsam sein, "Korrekturen" für Messfehler in all solchen Situationen blind anzuwenden, wie z. B. in Form einer Ruckreaktion (obwohl es durchaus eine gute Idee sein kann, Schritte zu unternehmen, um den Messfehler zu reduzieren). . $y = X\beta + \varepsilon$ $y$

(Ich sollte wahrscheinlich auch einen Link zu einigen anderen gängigen Fehler-in-Variablen - Modellen, in zunehmendem Maße allgemeiner Ordnung: orthogonale Regression , Deming Regression und Total Least Squares .)

Verweise

Smith, GD & Phillips, AN (1996). " Inflation in der Epidemiologie: 'Der Beweis und das Maß der Assoziation zwischen zwei Dingen' revidiert. " British Medical Journal , 312 (7047), 1659–1661.
Spearman, C. (1904). "Der Beweis und das Maß der Assoziation zwischen zwei Dingen." American Journal of Psychology 15 : 72–101.

Silverfish
quelle

In diesem Sinne: Dies ist ein Grund für die Verwendung der Technik, die entweder "kleinste Quadrate" oder "orthogonale Regression" genannt wird (abhängig von der von Ihnen gelesenen Referenz). Es ist deutlich komplizierter als einfache Fehlerquadrate, aber es lohnt sich, wenn alle Ihre Punkte mit Fehlern belastet sind.

JM ist kein Statistiker

@JM Danke - ja, eigentlich wollte ich eigentlich einen Link zu TLS einfügen, wurde aber durch den Artikel von Smith und Phillips abgelenkt!

Silverfish

2

+1 Tolle Ergänzung zu diesem Thema. Ich habe in meiner Arbeit oft über EIV-Modelle nachgedacht. Abgesehen von ihrer Komplexität oder der Abhängigkeit von der Kenntnis der "Fehlerverhältnisse" ist jedoch ein konzeptionellerer Aspekt zu berücksichtigen: Viele Regressionen, insbesondere beim überwachten Lernen oder bei der Vorhersage, möchten beobachtete Prädiktoren mit beobachteten Ergebnissen in Beziehung setzen . Andererseits versuchen EIV-Modelle, die zugrunde liegende Beziehung zwischen dem mittleren Prädiktor und der mittleren Antwort zu identifizieren ... eine etwas andere Frage.

2

Was man als "Verdünnung" der "wahren" Regression (in einem wissenschaftlichen Kontext) bezeichnen würde, würde man als "Abwesenheit eines prädiktiven Nutzens" oder so etwas in einem Vorhersagekontext bezeichnen.

21

Es gibt einige Standardmissverständnisse, die in diesem Kontext sowie in anderen statistischen Kontexten zutreffen: z. B. die Bedeutung von Werten, fälschlicherweise abgeleitete Kausalität usw. $p$

Ein paar Missverständnisse, die meiner Meinung nach spezifisch für multiple Regression sind, sind:

Zu denken, dass die Variable mit dem größeren geschätzten Koeffizienten und / oder dem niedrigeren -Wert "wichtiger" ist. $p$
Wenn Sie mehr Variablen zum Modell hinzufügen, kommen Sie der Wahrheit näher. Beispielsweise ist die Steigung von einer einfachen Regression von auf möglicherweise nicht die wahre direkte Beziehung zwischen und , aber wenn ich die Variablen , ist dieser Koeffizient eine bessere Darstellung der wahren Beziehung und Wenn ich hinzufüge wird es noch besser sein. $Y$ $X$ $X$ $Y$ $Z_1, \ldots, Z_5$ $Z_6, \ldots, Z_{20}$

gung - Setzen Sie Monica wieder ein
quelle

12

Gutes Zeug. Diese Antwort könnte noch nützlicher sein, wenn erklärt wird, warum die beiden falsch sind und was man stattdessen tun sollte?

DW

14

Ich würde sagen , die erste Du Liste ist wahrscheinlich die häufigste - und vielleicht die am häufigsten gelehrt , dass Art und Weise - von den Dingen , die einfach gesehen als falsch, sind aber hier sind einige andere , die weniger in einigen Situationen klar sind ( ob sie wirklich zutreffen), aber möglicherweise noch mehr Analysen beeinflussen und vielleicht noch schwerwiegender. Diese werden oft einfach nie erwähnt, wenn das Thema der Regression eingeführt wird.

Als Zufallsstichprobe aus der Grundgesamtheit interessierender Gruppen von Beobachtungen behandeln, die möglicherweise nicht repräsentativ sein können (geschweige denn zufällig ausgewählt). [Einige Studien könnten stattdessen als etwas angesehen werden, das den Convenience-Proben näher kommt]
Ignorieren Sie bei Beobachtungsdaten einfach die Konsequenzen, wenn Sie wichtige Treiber des Prozesses auslassen, die die Schätzungen der Koeffizienten der eingeschlossenen Variablen (in vielen Fällen sogar, um wahrscheinlich ihr Vorzeichen zu ändern) verzerren würden, und versuchen Sie nicht, Möglichkeiten des Umgangs zu erwägen mit ihnen (ob aus Unkenntnis des Problems oder weil sie sich einfach nicht bewusst sind, dass etwas getan werden kann). [Einige Forschungsbereiche haben dieses Problem häufiger als andere, sei es aufgrund der Art der gesammelten Daten oder weil Personen in einigen Anwendungsbereichen mit größerer Wahrscheinlichkeit über das Problem unterrichtet wurden.]
Zufällige Regression (meistens mit Daten, die im Laufe der Zeit gesammelt wurden). [Auch wenn die Leute wissen, dass es passiert, gibt es ein weiteres weit verbreitetes Missverständnis, dass es ausreicht, sich nur vom vermeintlichen stationären zu unterscheiden, um das Problem vollständig zu vermeiden.]

Es gibt natürlich viele andere, die man erwähnen könnte (die Behandlung als unabhängige Daten, die mit ziemlicher Sicherheit seriell korreliert oder sogar integriert werden, kann zum Beispiel ungefähr so häufig sein).

Sie werden vielleicht bemerken, dass Beobachtungsstudien von Daten, die im Laufe der Zeit gesammelt wurden, von all diesen auf einmal betroffen sein können ... Diese Art von Studie ist jedoch in vielen Forschungsbereichen, in denen Regression ein Standardinstrument ist, sehr verbreitet. Wie sie zur Veröffentlichung gelangen können, ohne dass ein einzelner Rezensent oder Redakteur etwas über mindestens einen von ihnen weiß und in den Schlussfolgerungen einen gewissen Haftungsausschluss verlangt, macht mir weiterhin Sorgen.

In der Statistik treten Probleme mit nicht reproduzierbaren Ergebnissen auf, wenn es sich um recht sorgfältig kontrollierte Experimente handelt (in Kombination mit möglicherweise nicht so sorgfältig kontrollierten Analysen). Sobald man also diese Grenzen überschreitet, um wie viel schlimmer muss die Reproduzierbarkeitssituation sein?

Glen_b
quelle

6

In engem Zusammenhang mit einigen Ihrer Punkte steht möglicherweise die Idee, dass "nur Daten einem Messfehler unterliegen" (oder zumindest "dies ist der einzige Fehler, den wir berücksichtigen werden"). Ich bin mir nicht sicher, ob das hier einen Schuhlöffel verdient, aber es ist durchaus üblich, die Möglichkeit - und die Konsequenzen - von Zufallsfehlern in den Variablen zu ignorieren .

y

$y$

x

$x$

Silverfish

2

@Silverfish ich gesamt ly mit Ihnen einverstanden.

Mark L. Stone

@Silverfish es ist CW, also solltest du dich extra frei fühlen, um es in einem geeigneten Zusatz wie diesem zu bearbeiten.

Glen_b

@Silverfish Es gibt einen Grund, warum ich es nicht selbst hinzugefügt habe, als Sie es erwähnt haben ... Ich denke, es ist wahrscheinlich eine neue Antwort wert

Glen_b

12

Ich würde diese Missverständnisse wahrscheinlich nicht als „Missverständnisse“ bezeichnen, aber möglicherweise als häufig auftretende Probleme, die den Forschern möglicherweise nicht bewusst sind.

Multikollinearität (einschließlich des Falls von mehr Variablen als Datenpunkten)
Heteroskedastizität
Gibt an, ob Werte der unabhängigen Variablen Rauschen ausgesetzt sind
Wie die Skalierung (oder nicht Skalierung) die Interpretation der Koeffizienten beeinflusst
So behandeln Sie Daten von mehreren Personen
Umgang mit seriellen Korrelationen (zB Zeitreihen)

Auf der falschen Seite der Dinge:

$y = ax^2 + bx + c$ $x$
Diese "Regression" bedeutet gewöhnliche kleinste Quadrate oder lineare Regression
Diese niedrigen / hohen Gewichte implizieren notwendigerweise schwache / starke Beziehungen zur abhängigen Variablen
Diese Abhängigkeit zwischen den abhängigen und unabhängigen Variablen kann notwendigerweise auf paarweise Abhängigkeiten reduziert werden.
Diese hohe Passgenauigkeit des Trainingssets setzt ein gutes Modell voraus (dh Überanpassung vernachlässigen)

user20160
quelle

7

Nach meiner Erfahrung vertreten die Schüler häufig die Ansicht, dass Fehlerquadrate (oder OLS-Regression) von Natur aus angemessen, genau und insgesamt gut zu verwenden sind oder sogar ohne Alternative sind. Ich habe häufig gesehen, dass OLS zusammen mit den Bemerkungen beworben wurde, dass es "extremeren / abweichenden Beobachtungen mehr Gewicht beimisst", und die meiste Zeit wird zumindest impliziert, dass dies eine wünschenswerte Eigenschaft ist. Dieser Begriff kann später geändert werden, wenn die Behandlung von Ausreißern und robusten Ansätzen eingeführt wird, aber an diesem Punkt ist der Schaden angerichtet. Die weit verbreitete Verwendung von Quadratfehlern hat historisch mehr mit ihrer mathematischen Bequemlichkeit zu tun als mit einem Naturgesetz der tatsächlichen Fehlerkosten.

Insgesamt könnte mehr Gewicht auf das Verständnis gelegt werden, dass die Wahl der Fehlerfunktion etwas willkürlich ist. Im Idealfall sollte jede Wahl der Strafe innerhalb eines Algorithmus von der entsprechenden realen Kostenfunktion geleitet werden, die mit potenziellen Fehlern verbunden ist (dh unter Verwendung eines Entscheidungsrahmens). Warum nicht zuerst dieses Prinzip aufstellen und dann sehen, wie gut wir es können?

Benedict MJG
quelle

2

Die Auswahl ist auch anwendungsabhängig. OLS ist nützlich für algebraische Anpassungen auf der y-Achse, weniger für geometrische Anwendungen, bei denen die Summe der kleinsten Quadrate (oder eine andere Kostenfunktion basierend auf dem orthogonalen Abstand) sinnvoller ist.

Willie Wheeler

4

Ein weiteres häufiges Missverständnis ist, dass der Fehlerausdruck (oder die Störung in der ökonometrischen Sprache) und die Residuen dasselbe sind.

Der Fehlerterm ist eine Zufallsvariable im Echtmodell- oder Datenerzeugungsprozess und wird häufig als einer bestimmten Verteilung folgend angenommen, während die Residuen die Abweichungen der beobachteten Daten vom angepassten Modell sind. Als solche können die Residuen als Schätzungen der Fehler betrachtet werden.

Robert Long
quelle

Ich wette, die Leute wären an Erklärungen interessiert, warum dies wichtig ist oder in welchen Fällen.

Rolando2

4

Das häufigste Missverständnis, dem ich begegne, ist, dass die lineare Regression die Normalität von Fehlern voraussetzt. Das tut es nicht. Normalität ist in Verbindung mit einigen Aspekten der linearen Regression nützlich, z. Auch für diese Dinge gibt es asymptotische Werte für nicht normale Verteilungen.

Die zweithäufigste ist eine Ansammlung von Verwirrungen in Bezug auf Endogenität, z. B. wenn man mit Rückkopplungsschleifen nicht vorsichtig ist. Wenn es eine Rückkopplungsschleife von Y zurück zu X gibt, ist dies ein Problem.

Aksakal
quelle

4

Y = a X + b

$Y = a \, X + b$

X = \frac{1}{a} Y - \frac{b}{a}

$X = \frac{1}{a} \, Y - \frac{b}{a}$

Möglicherweise hängt dies auch mit dem Unterschied zwischen OLS und der kleinsten Quadrate oder der ersten Hauptkomponente zusammen.

Jf Parmentier
quelle

3

Das, was ich oft gesehen habe, ist ein Missverständnis über die Anwendbarkeit der linearen Regression in bestimmten Anwendungsfällen in der Praxis.

Nehmen wir beispielsweise an, dass die Variable, an der wir interessiert sind, die Anzahl von Elementen (Beispiel: Besucher auf der Website) oder das Verhältnis von Elementen (Beispiel: Conversion-Raten) ist. In solchen Fällen kann die Variable besser modelliert werden, indem Verknüpfungsfunktionen wie Poisson (Anzahl), Beta (Verhältnisse) usw. verwendet werden. Daher ist die Verwendung eines verallgemeinerten Modells mit geeigneterer Verknüpfungsfunktion besser geeignet. Aber nur weil die Variable nicht kategorisch ist, habe ich Leute gesehen, die mit einer einfachen linearen Regression begannen (Link-Funktion = Identität). Auch wenn wir die Auswirkungen auf die Genauigkeit nicht berücksichtigen, sind die Modellierungsannahmen hier ein Problem.

hssay
quelle

2

Folgendes wird meiner Meinung nach von Forschern häufig übersehen:

Variable Interaktion: Forscher untersuchen häufig einzelne Betas einzelner Prädiktoren und geben häufig nicht einmal Interaktionsbegriffe an. Aber in der realen Welt interagieren die Dinge. Ohne genaue Angabe aller möglichen Interaktionsterme wissen Sie nicht, wie Ihre "Prädiktoren" zusammenarbeiten, um ein Ergebnis zu erzielen. Und wenn Sie fleißig sein und alle Interaktionen spezifizieren möchten, explodiert die Anzahl der Prädiktoren. Aus meinen Berechnungen können Sie nur 4 Variablen und deren Wechselwirkungen mit 100 Probanden untersuchen. Wenn Sie eine weitere Variable hinzufügen, können Sie sehr leicht überanpassen.

user4534898
quelle

0

Ein weiteres häufiges Missverständnis ist, dass die Schätzungen (angepassten Werte) für Transformationen nicht invariant sind, z

f ({\hat{y}}_{i}) \neq \hat{f (y_{i})}

$f(\hat{y}_i) \neq \widehat{f(y_i)}$

{\hat{y}}_{i} = {\vec{x}}_{i}^{T} \hat{β}

$\hat{y}_i = \vec{x}_i ^T \hat{\beta}$

$f(\cdot)$

$log(\cdot)$

Dies tritt immer dann auf, wenn Sie eine Log-Transformation Ihrer Daten durchführen, eine lineare Regression anpassen und dann den angepassten Wert potenzieren. Die Leute lesen dies als Regression. Dies ist nicht der Mittelwert, dies ist der Median (wenn die Dinge wirklich log-normal verteilt sind).

Lucas Roberts
quelle

Was sind einige der häufigsten Missverständnisse über lineare Regression?

Antworten: