Modell mit Komplikationen

7

Ein reguläres lineares Regressionsmodell ist , wobei unbekannte Koeffizienten sind und \ varepsilon Gaußsches Rauschen mit einem Mittelwert von Null und einer konstanten Varianz ist. Ich baue ein Modell, bei dem der Fehlerbegriff \ varepsilon zwei Komplikationen hat:y=cx+εcεε

  1. Seine Verteilung ist nicht normal.
  2. Die Fehlervarianz ist nicht konstant.

Ich weiß, dass das erste Problem durch einige lineare Regressionsmodelle angegangen werden kann, während das zweite Problem durch lineare Regression angegangen werden kann (z. B. Tofallis, C (2008), "Least Squares Percentage Regression"). Aber ich habe noch nie ein Modell gesehen, das beide Probleme gleichzeitig angeht.

Shuwong
quelle
Schauen Sie sich robuste Statistiken an .
usεr11852
Wenn Sie eine Heteroskedastizität haben, können Sie nicht beurteilen, wie schwer die Schwänze der bedingten Verteilung direkt aus dem QQ-Diagramm sind, da die Heteroskedastizität damit verwechselt wird (dh die Heteroskedastizität allein reicht aus, um das QQ-Diagramm einer Leichtschwanzverteilung wie ein schweres Diagramm aussehen zu lassen) tailed one)
Glen_b -Reinstate Monica

Antworten:

3

Die Sandwich-basierte robuste Fehlerschätzung behandelt sowohl die Heteroskedastizität als auch die nicht normale Fehlerverteilung asymptotisch . Das bedeutet auch, dass Sie in relativ Stichproben ungefähr gültige Schlussfolgerungen erhalten.

Ein Kritikpunkt könnte sein, dass eine so robuste Methode von geringer Leistung sein muss. Im Allgemeinen nicht so wahr, wie man denkt. Aber ... könnten Sie schwächere oder andere Annahmen über die Verteilung der Fehler treffen? Anstatt normal zu sein, könnten sie beispielsweise aus einer allgemeinen Fehlerfamilie einschließlich der Normalverteilung stammen, wie z. B. einer T-Verteilungsfamilie oder einer 3-Parameter-Normalfamilie. Dies verwischt die Grenzen zwischen klassischer Inferenz, die bei kleinen Stichproben auf starken Verteilungsannahmen beruht, und robuster Fehlerschätzung, die bei relativ großen Stichproben ziemlich kugelsicher ist.

Ein Beispiel für das Verwischen dieser Linien für einen Hybridansatz ist die Maximierung einer bedingten Wahrscheinlichkeit, die platykurtische Fehlerverteilungen wie eine Verteilung mit relativ geringen Freiheitsgraden ermöglicht. Für den Fall der Heteroskedastizität können Sie Variogramme untersuchen, um die Fehler als Funktion des Mittelwerts zu modellieren, z. B. mit einer linearen Mittelwert-Varianz-Beziehung (alternativ ein Poisson-GLM mit einer Identitätsverknüpfung).t

AdamO
quelle
3

Sowohl Heteroskedastizität als auch Schwerschwanz können als Verstöße gegen die Verteilungsannahmen eines linearen Standardmodells angesehen werden. Wenn die Verteilung dennoch symmetrisch ist und die Beziehung zwischen und geradlinig ist, sollte Ihr Modell nicht verzerrt sein. Stattdessen wären Intervallschätzungen und Schlussfolgerungen falsch. Mit genügend Daten können sie ohnehin ungefähr richtig sein. Leider ist es schwierig zu wissen, wie viele Daten "genug" wären, und die Menge kann ohne Ihr Bewusstsein auf die eine oder andere Weise unerschwinglich groß sein. Daher benötigen Sie Methoden, die nicht auf den Standardverteilungsannahmen beruhen. @ AdamOs Vorschläge sind realisierbar. Zwei zusätzliche Ansätze fallen mir ein: xy

  1. Sie können Ihr Modell booten , um bessere Konfidenzintervalle und p-Werte zu erhalten. Der Vorteil hierbei ist, dass Ihr Modell ansonsten ähnlich ist (insbesondere in Bezug auf die Interpretierbarkeit). Die Nachteile sind, dass Sie genügend Daten benötigen, um die Grundgesamtheit angemessen darzustellen, und dass Sie wahrscheinlich Originalcode schreiben müssen (dh es gibt möglicherweise noch keine praktischen Routinen).
  2. Die ultimative verteilungsfreie Regressionsmethode ist die ordinale logistische Regression . Ordinal Modelle keine Annahmen über die bedingte Verteilung machen, benötigen sie nur , dass man behaupten kann, sagen, dass ein ist ein . Das ist nicht sehr restriktiv. Der Vorteil ist eine beträchtliche Robustheit, und in Ihrer Software Ihrer Wahl gibt es dafür praktische Funktionen. Der Nachteil ist, dass OLR-Modelle in der Regel schwer zu interpretieren sind. 7>6
gung - Monica wieder einsetzen
quelle
Ich kann mich nicht erinnern, wer die Sprache erfunden hat, aber die Sandwich-Fehlerschätzung wurde als ungefährer linearer Bootstrap bezeichnet. Sie sind angeblich asymptotisch konsistent für dasselbe! Aber ich kann nicht mehr darüber sagen, warum oder wer dies festgestellt hat, ist richtig.
AdamO
@AdamO, ich bin nicht überrascht, dass sie asymptotisch konsistent sind. Eine interessante Frage ist, wie sie sich mit moderaten Stichproben und unterschiedlichen Verteilungsunregelmäßigkeiten vergleichen lassen.
Gung - Reinstate Monica