Ein reguläres lineares Regressionsmodell ist , wobei unbekannte Koeffizienten sind und \ varepsilon Gaußsches Rauschen mit einem Mittelwert von Null und einer konstanten Varianz ist. Ich baue ein Modell, bei dem der Fehlerbegriff \ varepsilon zwei Komplikationen hat:
- Seine Verteilung ist nicht normal.
- Die Fehlervarianz ist nicht konstant.
Ich weiß, dass das erste Problem durch einige lineare Regressionsmodelle angegangen werden kann, während das zweite Problem durch lineare Regression angegangen werden kann (z. B. Tofallis, C (2008), "Least Squares Percentage Regression"). Aber ich habe noch nie ein Modell gesehen, das beide Probleme gleichzeitig angeht.
regression
Shuwong
quelle
quelle
Antworten:
Die Sandwich-basierte robuste Fehlerschätzung behandelt sowohl die Heteroskedastizität als auch die nicht normale Fehlerverteilung asymptotisch . Das bedeutet auch, dass Sie in relativ Stichproben ungefähr gültige Schlussfolgerungen erhalten.
Ein Kritikpunkt könnte sein, dass eine so robuste Methode von geringer Leistung sein muss. Im Allgemeinen nicht so wahr, wie man denkt. Aber ... könnten Sie schwächere oder andere Annahmen über die Verteilung der Fehler treffen? Anstatt normal zu sein, könnten sie beispielsweise aus einer allgemeinen Fehlerfamilie einschließlich der Normalverteilung stammen, wie z. B. einer T-Verteilungsfamilie oder einer 3-Parameter-Normalfamilie. Dies verwischt die Grenzen zwischen klassischer Inferenz, die bei kleinen Stichproben auf starken Verteilungsannahmen beruht, und robuster Fehlerschätzung, die bei relativ großen Stichproben ziemlich kugelsicher ist.
Ein Beispiel für das Verwischen dieser Linien für einen Hybridansatz ist die Maximierung einer bedingten Wahrscheinlichkeit, die platykurtische Fehlerverteilungen wie eine Verteilung mit relativ geringen Freiheitsgraden ermöglicht. Für den Fall der Heteroskedastizität können Sie Variogramme untersuchen, um die Fehler als Funktion des Mittelwerts zu modellieren, z. B. mit einer linearen Mittelwert-Varianz-Beziehung (alternativ ein Poisson-GLM mit einer Identitätsverknüpfung).t
quelle
Sowohl Heteroskedastizität als auch Schwerschwanz können als Verstöße gegen die Verteilungsannahmen eines linearen Standardmodells angesehen werden. Wenn die Verteilung dennoch symmetrisch ist und die Beziehung zwischen und geradlinig ist, sollte Ihr Modell nicht verzerrt sein. Stattdessen wären Intervallschätzungen und Schlussfolgerungen falsch. Mit genügend Daten können sie ohnehin ungefähr richtig sein. Leider ist es schwierig zu wissen, wie viele Daten "genug" wären, und die Menge kann ohne Ihr Bewusstsein auf die eine oder andere Weise unerschwinglich groß sein. Daher benötigen Sie Methoden, die nicht auf den Standardverteilungsannahmen beruhen. @ AdamOs Vorschläge sind realisierbar. Zwei zusätzliche Ansätze fallen mir ein:x y
quelle