Annahmen linearer Modelle und was zu tun ist, wenn die Residuen nicht normalverteilt sind

22

Ich bin ein bisschen verwirrt, was die Annahmen der linearen Regression sind.

Bisher habe ich geprüft, ob:

  • Alle erklärenden Variablen korrelierten linear mit der Antwortvariablen. (Dies war der Fall)
  • es gab irgendeine Kollinearität zwischen den erklärenden Variablen. (Es gab wenig Kollinearität).
  • Die Cook-Abstände der Datenpunkte meines Modells liegen unter 1 (dies ist der Fall, alle Abstände liegen unter 0,4, also keine Einflusspunkte).
  • Die Reste sind normalverteilt. (Dies ist möglicherweise nicht der Fall)

Ich habe dann aber folgendes gelesen:

Normalitätsverletzungen treten häufig auf, weil (a) die Verteilungen der abhängigen und / oder unabhängigen Variablen selbst signifikant nicht normal sind und / oder (b) die Linearitätsannahme verletzt wird.

Frage 1 Das klingt so, als müssten die unabhängigen und abhängigen Variablen normal verteilt werden, aber meines Wissens ist dies nicht der Fall. Meine abhängige Variable sowie eine meiner unabhängigen Variablen sind normalerweise nicht verteilt. Sollten sie sein?

Frage 2 Mein QQnormal-Plot der Residuen sieht folgendermaßen aus:

Normalitätsprüfung der Residuen

Das weicht ein wenig von einer Normalverteilung ab und shapiro.testlehnt auch die Nullhypothese ab, dass die Residuen von einer Normalverteilung stammen:

> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06

Die Residuen im Vergleich zu angepassten Werten sehen folgendermaßen aus:

Residuen vs angepasst

Was kann ich tun, wenn meine Residuen nicht normal verteilt sind? Bedeutet das, dass das lineare Modell völlig unbrauchbar ist?

Stefan
quelle
3
Ihre Residuen im Vergleich zur angepassten Darstellung weisen darauf hin, dass Ihre abhängige Variable eine Untergrenze aufweist. Dies könnte die Muster beeinflussen, die Sie sehen. Dies könnte Ihnen Hinweise auf alternative Modelle geben, die Sie in Betracht ziehen könnten.
Maarten Buis

Antworten:

25

Zuallererst würde ich mir ein Exemplar dieses klassischen und ansprechbaren Artikels besorgen und es lesen: Anscombe FJ. (1973) Diagramme in der statistischen Analyse Der amerikanische Statistiker . 27: 17-21.

Auf zu Ihren Fragen:

Antwort 1: Weder die abhängige noch die unabhängige Variable müssen normal verteilt sein. Tatsächlich können sie alle Arten von Schleifenverteilungen haben. Die Normalitätsannahme gilt für die Verteilung der Fehler ( ).YiY^i

Antwort 2: Sie fragen tatsächlich nach zwei getrennten Annahmen für die Regression nach dem Prinzip der kleinsten Quadrate (OLS):

  1. Eine davon ist die Annahme der Linearität . Dies bedeutet , dass die Beziehung zwischen und durch eine gerade Linie ausgedrückt wird (rechts direkt zu Algebra: , wobei ist der -intercept, und . Die Steigung der Linie) Eine Verletzung Diese Annahme bedeutet einfach, dass die Beziehung durch eine gerade Linie nicht gut beschrieben wird (z. B. ist eine sinusförmige Funktion vonYXy=a+bxaybYXoder eine quadratische Funktion oder sogar eine gerade Linie, die an einem bestimmten Punkt die Neigung ändert). Mein eigener bevorzugter zweistufigen Ansatz zur Adresse Nichtlinearität ist , um (1) eine Art von nicht-parametrischen Glättungs Regression auszuführen vorzuschlagen spezifischen nicht - lineare funktionale Beziehung zwischen und (zB unter Verwendung LOWESS oder GAM s, etc.), und (2) eine funktionale Beziehung unter Verwendung entweder einer multiplen Regression, die Nichtlinearitäten in (z. B. ), oder eines nichtlinearen Regressionsmodells der kleinsten Quadrate , das Nichtlinearitäten in Parametern von X enthält ( zB , wobeiYXXYX+X2YX+max(Xθ,0)θstellt den Punkt dar, an dem die Regressionslinie von auf die Steigung ändert).YX

  2. Eine andere ist die Annahme normalverteilter Residuen. Manchmal kann man mit nicht normalen Residuen in einem OLS-Kontext gültig davonkommen; siehe zum Beispiel Lumley T, Emerson S. (2002) Die Bedeutung der Normalitätsannahme in großen Datensätzen zur öffentlichen Gesundheit . Jährliche Überprüfung der öffentlichen Gesundheit . 23: 151–69. Manchmal kann man das nicht (siehe auch den Anscombe-Artikel).

Ich würde jedoch empfehlen, die Annahmen in OLS nicht so sehr als gewünschte Eigenschaften Ihrer Daten zu betrachten, sondern als interessante Ausgangspunkte für die Beschreibung der Natur. Schließlich ist das meiste, was uns auf der Welt wichtig ist, interessanter als Intercept und Steigung. Die kreative Verletzung von OLS-Annahmen (mit den entsprechenden Methoden) ermöglicht es uns, interessantere Fragen zu stellen und zu beantworten.y

Alexis
quelle
2
Vielen Dank! In den Folien einiger Statistikkurse heißt es, dass Sie bei Nichterfüllung der Annahmen versuchen können, Y oder die erklärenden Variablen zu transformieren. Wenn ich das Y transformiere, indem ich zum Beispiel lm (Y ^ 0.3 ~ + X1 + X2 + ...) mache, werden meine Residuen normalverteilt. Ist das eine gültige Sache zu tun?
Stefan
@ Stefan Ja! Das Transformieren einer Antwort ist häufig eine gute Sache log, und einfache Leistungstransformationen sind üblich.
Gregor
@ Stefan Vielleicht, vielleicht auch nicht. Wenn Sie Ihr Ergebnis transformieren, gelten Ihre auf den transformierten Beziehungen basierenden Schlussfolgerungen nicht unbedingt für die inversen Transformationen, nachdem Sie Ihre Analyse durchgeführt haben. Dies liegt daran, dass . Wenn Sie also analysieren Das Finden eines signifikanten führt nicht unbedingt zu einem signifikanten , und CI entspricht auch nicht unbedingt .Var(f(x)f(Var(x))lnY=β0+βXX+εβXeβXβXeCIβX
Alexis
@Alexis: Warum sagen diese Seiten, dass die Variablen normal verteilt sein müssen? (1) pareonline.net/getvn.asp?n=2&v=8 (2) statisticssolutions.com/…
stackoverflowuser2010
7
@ stackoverflowuser2010 Weil sie nicht wissen, wovon sie sprechen? Die Annahme ist direkt in den mathematischen Formalismus eingebaut : wobei . Beachten Sie den letzten Teil: Es sind die Residuen, nicht die Variablen, die normal verteilt sind. Schauen Sie: (1) simulieren Sie X mit einer gleichmäßigen Verteilung von, oh, sagen wir 0 bis 100; (2) simuliere ; (3) Regression von auf und Wiederherstellung von . Dann schauen Sie sich die Histogramme von und an& egr; ~ N ( 0 , σ ) Y = 3 + 0,5 × X + N ( 0 , 1 ) Y X ß 03 , β X0,5 X YY=β0+βXX+εεN(0,σ)Y=3+0.5×X+N(0,1)YXβ03,βX0.5XY .
Alexis
11

Deine ersten Probleme sind

  • Trotz Ihrer Zusicherungen zeigt die Restkurve, dass die bedingte erwartete Reaktion in den angepassten Werten nicht linear ist. das Modell für den Mittelwert ist falsch.

  • Sie haben keine konstante Varianz. Das Modell für die Varianz ist falsch.

Mit diesen Problemen kann man dort nicht einmal die Normalität einschätzen .

Glen_b - Setzen Sie Monica wieder ein
quelle
Bitte erläutern Sie anhand der Diagramme, wie Sie auf die Linearität gekommen sind. Ich verstehe, dass die Homoskedastizitätsannahme hier nicht erfüllt ist.
Dr. Nisha Arora
Das bedingte Mittel der Residuen ändert sich, wenn sich ändert; Es gibt einen klaren Abwärtstrend und einen deutlichen Anstieg, wenn wir uns nach rechts bewegen. Wenn Sie es nicht sehen können, schneiden Sie die Handlung in 4 Scheiben. Ich würde die Mitte des Bereichs der vorhergesagten Werte auf , also dort abschneiden und dann jede Hälfte abschneiden - sagen wir bei und . Wenn Sie sich nun die Punkte in den einzelnen Schnitten ansehen ( , , , ), zeichnen Sie die bestmögliche Schätzung einer geraden Linie. Für mich sind die beiden mittleren fast zusammenfällt, so dass ich ihre Linien kombiniert, was so etwas wie dieses y =30060<00-3030-60>60y^y^=30060<00303060>60
Glen_b -Reinstate Monica
In der mittleren Hälfte sind fast alle Residuen negativ, in den äußeren Teilen sind fast alle Residuen positiv. So sehen zufällige Residuen nicht aus.
Glen_b
Danke, @Glen_b. Nach einer langen Pause überarbeite ich meine Konzepte, sodass ich sie zunächst nicht visualisieren konnte.
Dr. Nisha Arora
Obwohl hier nicht viel zu tun ist, erwarte ich, dass die ursprünglichen Daten nicht negativ sind, und entweder ein verallgemeinertes lineares Modell (möglicherweise ein Gamma mit logarithmischer Verknüpfung) oder eine Transformation (wahrscheinlich eine logarithmische Transformation) wären die geeignetere Wahl .
Glen_b
3

Ich würde nicht sagen, dass das lineare Modell völlig nutzlos ist. Dies bedeutet jedoch, dass Ihr Modell Ihre Daten nicht korrekt / vollständig erklärt. Es gibt einen Bereich, in dem Sie entscheiden müssen, ob das Modell "gut genug" ist oder nicht.

Bei Ihrer ersten Frage gehe ich nicht davon aus, dass ein lineares Regressionsmodell davon ausgeht, dass Ihre abhängigen und unabhängigen Variablen normal sein müssen. Es gibt jedoch eine Annahme über die Normalität der Residuen.

Für Ihre zweite Frage gibt es zwei verschiedene Dinge, die Sie in Betracht ziehen könnten:

  1. Überprüfen Sie verschiedene Arten von Modellen. Ein anderes Modell ist möglicherweise besser geeignet, um Ihre Daten zu erläutern (z. B. nichtlineare Regression usw.). Sie müssten noch prüfen, ob die Annahmen dieses "neuen Modells" nicht verletzt werden.
  2. Ihre Daten enthalten möglicherweise nicht genügend Kovariaten (abhängige Variablen), um die Antwort (das Ergebnis) zu erklären. In diesem Fall können Sie nichts weiter tun. Manchmal akzeptieren wir möglicherweise, zu überprüfen, ob die Residuen einer anderen Verteilung folgen (z. B. t-Verteilung), aber dies scheint für Sie nicht der Fall zu sein.

Zusätzlich zu Ihrer Frage sehe ich, dass Ihr QQPlot nicht "normalisiert" ist. Normalerweise ist es einfacher, den Plot zu betrachten, wenn Ihre Residuen standardisiert sind, siehe stdres .

stdres(lmobject)

Ich hoffe es hilft dir, vielleicht wird jemand anderes dies besser erklären als ich.

Julien D.
quelle
0

Zusätzlich zur vorherigen Antwort möchte ich einige Punkte hinzufügen, um Ihr Modell zu verbessern:

  1. Manchmal deutet eine Nichtnormalität der Residuen auf das Vorhandensein von Ausreißern hin. Wenn dies der Fall ist, behandeln Sie zuerst die Ausreißer.

  2. Möglicherweise lösen einige Transformationen den Zweck.

  3. Um sich mit Multi-Colinearität zu befassen, können Sie außerdem auf https://www.researchgate.net/post/My_data_has_the_problem_of_multicolinearity_Removing_unique_variables_using_variance_inflation_factor_VIF_didnt_work_Any_solution verweisen

Dr. Nisha Arora
quelle
-1

Für Ihre zweite Frage,

Was mir in der Praxis passiert ist, ist, dass ich meine Antwort mit vielen unabhängigen Variablen überfüllt habe. In dem überausgestatteten Modell hatte ich nicht normale Reste. Die Ergebnisse zeigten jedoch, dass es nicht genügend Beweise gab, um die Möglichkeit zu verwerfen, dass einige Koeffizienten Null waren (mit p-Werten größer als 0,2). In einem zweiten Modell, in dem Variablen nach einem Rückwärtsauswahlverfahren ausgeschlossen wurden, wurden normale Residuen sowohl grafisch mit einem qqplot als auch durch Hypotesistests mit einem Shapiro-Wilk-Test validiert. Prüfen Sie, ob dies der Fall sein könnte.

Ayar Paco
quelle