Was ist die Notwendigkeit von Annahmen in der linearen Regression?

14

Bei der linearen Regression gehen wir von folgenden Annahmen aus

  • Der Mittelwert der Antwort bei jedem Wertesatz der Prädiktoren ( x 1 i , x 2 i , ... ) ist eine lineare Funktion der Prädiktoren.E(Yi)(x1i,x2i,)
  • Die Fehler sind unabhängig.εi
  • Die Fehler bei jedem Satz von Werten der Prädiktoren ( x 1 i , x 2 i , ... ) sind normalverteilt.εi(x1i,x2i,)
  • Die Fehler ; i bei jedem Satz von Werten der Prädiktoren ( x 1 i , x 2 i , ... ) haben gleiche Varianzen (bezeichnet mit & sgr; 2 ).εi(x1i,x2i,)σ2
  • Eine Möglichkeit, die lineare Regression zu lösen, sind normale Gleichungen, die wir als schreiben können

    θ=(XTX)1XTY

    Aus mathematischer Sicht braucht die obige Gleichung nur umkehrbar zu sein. Warum brauchen wir diese Annahmen? Ich habe ein paar Kollegen gefragt und sie haben erwähnt, dass es gute Ergebnisse bringen soll, und normale Gleichungen sind ein Algorithmus, um dies zu erreichen. Aber wie helfen diese Annahmen in diesem Fall? Wie hilft es ihnen, ein besseres Modell zu erhalten?XTX

    Uhrensklave
    quelle
    2
    Die Normalverteilung wird benötigt, um Koeffizientenkonfidenzintervalle mit üblichen Formeln zu berechnen. Andere Formeln der CI-Berechnung (ich denke, es war Weiß) erlauben eine nicht normale Verteilung.
    keiv.fly
    Sie benötigen diese Annahmen nicht immer, damit das Modell funktioniert. In neuronalen Netzen haben Sie lineare Regressionen und diese minimieren die RMSE genau wie die von Ihnen angegebene Formel, aber höchstwahrscheinlich gilt keine der Annahmen. Keine Normalverteilung, keine gleiche Varianz, keine lineare Funktion, auch die Fehler können abhängig sein.
    keiv.fly
    1
    @Alexis Die unabhängigen Variablen, die iid sind, sind definitiv keine Annahme (und die abhängige Variable, die iid ist, ist auch keine Annahme - stellen Sie sich vor, wenn wir annehmen, dass die Antwort iid ist, wäre es sinnlos, etwas anderes zu tun, als den Mittelwert zu schätzen). Und die "nicht ausgelassenen Variablen" stellen keine zusätzliche Annahme dar, obwohl es ratsam ist, das Auslassen von Variablen zu vermeiden - die erste aufgeführte Annahme ist wirklich das, was dafür sorgt.
    Dason
    1
    @Dason Ich denke, mein Link liefert ein ziemlich starkes Beispiel dafür, dass "keine Variablen ausgelassen" für eine gültige Interpretation erforderlich sind. Ich denke auch, dass iid (abhängig von den Prädiktoren, ja) notwendig ist, wobei zufällige Spaziergänge ein hervorragendes Beispiel dafür sind, wo die Schätzung ohne iid fehlschlagen kann (immer nur auf die Schätzung des Mittelwerts zurückgreifen).
    Alexis

    Antworten:

    19

    Sie haben Recht - Sie müssen diese Annahmen nicht erfüllen, um eine Linie der kleinsten Quadrate an die Punkte anzupassen. Sie benötigen diese Annahmen, um die Ergebnisse zu interpretieren. Angenommen, es gibt keine Beziehung zwischen einer Eingabe und Y , wie hoch ist die Wahrscheinlichkeit, einen Koeffizienten zu erhaltenX1Ywie groß β 1 erhalten wird, der mindestens so groß ist wie der, den wir aus der Regression gesehen haben?β1

    ausspionieren
    quelle
    3

    Sie benötigen diese Annahmen nicht, um ein lineares Modell anzupassen. Ihre Parameterschätzungen können jedoch verzerrt sein oder nicht die Mindestvarianz aufweisen. Verstöße gegen die Annahmen erschweren Ihnen die Interpretation der Regressionsergebnisse, indem Sie beispielsweise ein Konfidenzintervall erstellen.

    Kleinschach
    quelle
    1

    Ok, die Antworten gehen so weit: Wenn wir die Annahmen verletzen, können schlimme Dinge passieren. Ich glaube, die interessante Richtung ist: Wenn alle Annahmen erfüllt sind, die wir brauchen (die sich von den oben genannten ein wenig unterscheiden), warum und wie können wir sicher sein, dass die lineare Regression das beste Modell ist?

    Ich denke, die Antwort auf diese Frage lautet: Wenn wir die Annahmen wie in der Antwort auf diese Frage treffen, können wir die bedingte Dichte berechnenp(yich|xich). Daraus können wir berechnenE[Y.ich|Xich=xich] (die Faktorisierung der bedingten Erwartung bei xich) und sehen, dass es sich in der Tat um die lineare Regressionsfunktion handelt. Dann verwenden wir dies, um zu sehen, dass dies die beste Funktion in Bezug auf das wahre Risiko ist.

    Fabian Werner
    quelle
    0

    Die beiden Hauptannahmen sind

    1. Unabhängigkeit von Beobachtungen
    2. Der Mittelwert hängt nicht mit der Varianz zusammen

    Siehe Die Diskussion in Julian Faraways Buch .

    Wenn beides zutrifft, ist OLS überraschend widerstandsfähig gegen Verstöße gegen die anderen von Ihnen aufgeführten Annahmen.

    Astaines
    quelle