Annahmen der linearen Regression

7

Was sind in einfachen Worten die Annahmen der linearen Regression?

Ich möchte nur wissen, wann ich ein lineares Regressionsmodell auf unseren Datensatz anwenden kann.

Anvay Joshi
quelle
Sie können die akzeptierte Antwort markieren, wenn sie für Sie gut genug ist. Es ist schon seit einiger Zeit hier und Sie haben es noch nicht markiert.
TwinPenguins

Antworten:

14

Es gibt drei Hauptannahmen (statistisch genau genommen):

  1. Zwischen den abhängigen Variablen und den Regressoren besteht eine lineare Beziehung (rechte Abbildung unten), was bedeutet, dass das von Ihnen erstellte Modell tatsächlich zu den Daten passt. Geben Sie hier die Bildbeschreibung ein

  2. Die Fehler oder Residuen der Daten sind normal verteilt und unabhängig voneinander. Geben Sie hier die Bildbeschreibung ein

  3. Homoskedastizität. Dies bedeutet, dass die Varianz um die Regressionslinie für alle Werte der Prädiktorvariablen gleich ist. Geben Sie hier die Bildbeschreibung ein

Update 2 :: Multikollinearität ist keine Annahme, sondern eine Überprüfung der Gesundheit, insbesondere wenn die Interpretierbarkeit des Modells wichtig ist (danke Ricardo Cruz für den Kommentar). Multikollinearität tritt auf, wenn die unabhängigen Variablen nicht unabhängig voneinander sind. Multikollinearität zwischen erklärenden Variablen, die zu weniger stabilen Parameteranpassungen führen kann (danke KT. Für diesen Hinweis). Es gibt Tests wie die Korrelationsmatrix (Pearson's Bivariate Correlation) und den Varianzinflationsfaktor, mit denen dies überprüft werden kann.

TwinPenguins
quelle
1
Genau genommen ist 3 keine direkte Annahme des Modells. Dies kann jedoch störend sein, da die Kollinearität der Eingänge zu weniger stabilen Parameteranpassungen führt.
KT.
Könnte Ihnen nicht mehr zustimmen!
TwinPenguins
Dann könnten Sie 2. und 4. zu einer einzigen einfachen Aussage zusammenfassen, dass "Fehler unabhängig von der Eingabe sind, dh normale Zufallsvariablen". Dies lässt zwei Annahmen zu, die genau der Wahrscheinlichkeitsformel des linearen Modells entsprechen.
KT.
1
"Das kann zu weniger stabilen Parameteranpassungen führen" - für die Neulinge sollten Sie hinzufügen, dass dies nur dann ein Problem ist, wenn Sie die Parameter interpretieren möchten . Nur weil die Parameter nicht stabil sind, bedeutet dies nicht, dass das Modell selbst nicht stabil ist und dass seine Vorhersagen ungenau sind. Viele Menschen sind nur über Vorhersagbarkeit besorgt, nicht über Interpretierbarkeit. In diesem Fall ist Multicolinearität kein Problem.
Ricardo Cruz
Können Sie es anhand Homoscedasticityeines Beispiels etwas besser erklären ? Es ist nicht klar. Sie haben eine meiner Fragen als Duplikat markiert, auf dem ich nach einer besseren Ansicht gesucht habe. Können Sie erklären?
Sai Kumar