Diese Frage scheint grundlegend genug zu sein, dass ich überzeugt bin, dass sie hier irgendwo beantwortet wurde, aber ich habe sie nicht gefunden.
Ich verstehe, dass, wenn die abhängige Variable in einer Regression normal verteilt ist, die maximale Wahrscheinlichkeit und die gewöhnlichen kleinsten Quadrate dieselben Parameterschätzungen ergeben.
Wenn die abhängige Variable nicht normalverteilt ist, entsprechen die OLS-Parameterschätzungen nicht mehr MLE, sind jedoch immer noch die besten (minimale Varianz) linearen unverzerrten Schätzungen (BLAU).
Also, was sind die Eigenschaften von MLE, die es wünschenswert machen, über das hinaus, was OLS zu bieten hat (BLAU zu sein)?
Mit anderen Worten, was verliere ich, wenn ich nicht sagen kann, dass meine OLS-Schätzungen Schätzungen der maximalen Wahrscheinlichkeit sind?
Um diese Frage ein wenig zu motivieren: Ich frage mich, warum ich bei Vorhandensein einer eindeutig nicht normalen abhängigen Variablen ein anderes Regressionsmodell als OLS wählen möchte.
quelle
Antworten:
Wenn Sie sich ausreichend weit von der Normalität entfernen, können alle linearen Schätzer beliebig schlecht sein .
Zu wissen, dass Sie das Beste aus einem schlechten Los herausholen können (dh die beste lineare unverzerrte Schätzung), ist kein großer Trost.
Wenn Sie ein geeignetes Verteilungsmodell angeben können ( ja, da ist das Problem ), hat die Maximierung der Wahrscheinlichkeit sowohl eine direkte intuitive Anziehungskraft - als sie die Chance "maximiert", die Probe zu sehen, die Sie tatsächlich gesehen haben (mit einer geeigneten Verfeinerung dessen, was wir haben bedeutet damit für den kontinuierlichen Fall) und eine Reihe sehr ordentlicher Eigenschaften, die sowohl theoretisch als auch praktisch nützlich sind (z. B. Beziehung zur Cramer-Rao-Untergrenze, Äquivarianz unter Transformation, Beziehung zu Likelihood-Ratio-Tests usw.). Dies motiviert zum Beispiel die M-Schätzung.
Selbst wenn Sie kein Modell angeben können, ist es möglich, ein Modell zu erstellen, für das ML gegenüber Kontamination durch grobe Fehler in der bedingten Verteilung der Antwort robust ist - wobei es beim Gaußschen eine recht gute Effizienz beibehält, aber das potenziell katastrophale vermeidet Auswirkungen beliebig großer Ausreißer.
[Dies ist nicht die einzige Überlegung bei der Regression, da beispielsweise auch die Auswirkungen einflussreicher Ausreißer robust sein müssen, aber es ist ein guter erster Schritt]
Betrachten Sie diesen Prozess der Steigungsschätzer für die Regression, um das Problem selbst mit dem besten linearen Schätzer zu demonstrieren. In diesem Fall gibt es 100 Beobachtungen in jeder Probe, x ist 0/1, die wahre Steigung ist12 und Fehler sind Standard Cauchy. Die Simulation verwendet 1000 Sätze simulierter Daten und berechnet die Schätzung der kleinsten Quadrate der Steigung ("LS") sowie einige nichtlineare Schätzer, die in dieser Situation verwendet werden könnten (beide sind im Cauchy nicht vollständig effizient, aber beide sind vernünftig ) - einer ist ein L1-Schätzer der Linie ("L1") und der zweite berechnet eine einfache L-Schätzung der Position bei den beiden Werten von x und passt eine Linie an, die sie verbindet ("LE").
Der obere Teil des Diagramms ist ein Boxplot dieser tausend Steigungsschätzungen für jede Simulation. Der untere Teil ist das mittlere Prozent (ungefähr ist es mit einem schwachen orange-grauen Kästchen im oberen Diagramm markiert) dieses Bildes "gesprengt", damit wir mehr Details sehen können. Wie wir sehen, reichen die Steigungen der kleinsten Quadrate von -771 bis 1224 und die unteren und oberen Quartile sind -1,24 und 2,46. Der Fehler in der LS-Steigung betrug mehr als 10 mehr als 10% der Zeit. Die beiden nichtlinearen Schätzer schneiden viel besser ab - sie arbeiten ziemlich ähnlich, keine der 1000 Steigungsschätzungen ist in beiden Fällen mehr als 0,84 von der tatsächlichen Steigung entfernt, und der mittlere absolute Fehler in der Steigung liegt im Ballpark von jeweils 0,14 (vs 1,86 für den Schätzer der kleinsten Quadrate). Die LS-Steigung hat in diesem Fall einen 223- und 232-fachen RMSE-Wert der L1- und LE-Schätzer.
Es gibt Dutzende anderer vernünftiger Schätzer, die hier verwendet worden sein könnten; Dies war lediglich eine schnelle Berechnung, um zu veranschaulichen, dass selbst die besten / effizientesten linearen Schätzer möglicherweise nicht nützlich sind. Ein ML-Schätzer der Steigung würde eine bessere Leistung (im Sinne von MSE) erzielen als die beiden hier verwendeten robusten Schätzer, aber in der Praxis möchten Sie etwas mit einer gewissen Robustheit gegenüber einflussreichen Punkten.
quelle
Bei normalverteilten Daten konvergiert OLS mit dem MLE, einer Lösung, die (in diesem Punkt) BLAU ist. Sobald OLS nicht mehr normal ist, ist es nicht mehr BLAU (im Sinne des Gauß-Markov-Theorems) - dies liegt daran, dass OLS versucht, die SSR zu minimieren, während GMT BLAU als minimale SE definiert. Sehen Sie hier mehr .
Im Allgemeinen ist es angesichts des Vorhandenseins eines MLE (Google für "MLE-Fehler" oder für Fälle, in denen kein MLE vorhanden ist) einfacher, ihn anzupassen, entweder um die Varianz zu minimieren oder um ihn unvoreingenommen zu machen (und daher mit anderen Schätzern vergleichbar). .
quelle