Welche Eigenschaften von MLE machen es wünschenswerter als OLS?

8

Diese Frage scheint grundlegend genug zu sein, dass ich überzeugt bin, dass sie hier irgendwo beantwortet wurde, aber ich habe sie nicht gefunden.

Ich verstehe, dass, wenn die abhängige Variable in einer Regression normal verteilt ist, die maximale Wahrscheinlichkeit und die gewöhnlichen kleinsten Quadrate dieselben Parameterschätzungen ergeben.

Wenn die abhängige Variable nicht normalverteilt ist, entsprechen die OLS-Parameterschätzungen nicht mehr MLE, sind jedoch immer noch die besten (minimale Varianz) linearen unverzerrten Schätzungen (BLAU).

Also, was sind die Eigenschaften von MLE, die es wünschenswert machen, über das hinaus, was OLS zu bieten hat (BLAU zu sein)?

Mit anderen Worten, was verliere ich, wenn ich nicht sagen kann, dass meine OLS-Schätzungen Schätzungen der maximalen Wahrscheinlichkeit sind?

Um diese Frage ein wenig zu motivieren: Ich frage mich, warum ich bei Vorhandensein einer eindeutig nicht normalen abhängigen Variablen ein anderes Regressionsmodell als OLS wählen möchte.

Großartig38
quelle
Kommt darauf an, was Sie vom Modell wollen. Ökonomen möchten in der Regel durchschnittliche Schätzungen der Randeffekte in der Stichprobe, und OLS stellt diese bereit (sofern Sie nicht durch Annahmen zur additiven Trennbarkeit gestört werden). Wenn Sie jedoch ein Modell wünschen, das andere Merkmale des zugrunde liegenden Phänomens beschreibt, funktioniert OLS nicht so gut. Beispielsweise könnten Sie an einer Vorhersage außerhalb der Stichprobe interessiert sein oder bessere Schätzungen der Unsicherheit wünschen.
generic_user
Es ist erwähnenswert, dass OLS empfindlicher gegenüber Ausreißern ist, da die Zielfunktion einen quadratischen Fehler verwendet (das Problem wird also umso schlimmer, je extremer die Abweichung ist). Aus diesem Grund verwenden "robuste Regressionstechniken" wie die M-Schätzung MLE anstelle von OLS.
HEITZ
Wenn der Fehlerterm nicht normal ist, können t-Tests und F-Tests von Koeffizienten unzuverlässig sein. Extreme Schiefe und extreme Ausreißer sind ein besonderes Problem. In der Praxis erschwert dies die korrekte Modellspezifikation, was zu einer möglichen Verzerrung der Koeffizientenschätzungen (aufgrund von Fehlspezifikationen) und zu einer schlechten Leistung der Stichprobe führt.
David25272

Antworten:

7

Wenn Sie sich ausreichend weit von der Normalität entfernen, können alle linearen Schätzer beliebig schlecht sein .

Zu wissen, dass Sie das Beste aus einem schlechten Los herausholen können (dh die beste lineare unverzerrte Schätzung), ist kein großer Trost.

Wenn Sie ein geeignetes Verteilungsmodell angeben können ( ja, da ist das Problem ), hat die Maximierung der Wahrscheinlichkeit sowohl eine direkte intuitive Anziehungskraft - als sie die Chance "maximiert", die Probe zu sehen, die Sie tatsächlich gesehen haben (mit einer geeigneten Verfeinerung dessen, was wir haben bedeutet damit für den kontinuierlichen Fall) und eine Reihe sehr ordentlicher Eigenschaften, die sowohl theoretisch als auch praktisch nützlich sind (z. B. Beziehung zur Cramer-Rao-Untergrenze, Äquivarianz unter Transformation, Beziehung zu Likelihood-Ratio-Tests usw.). Dies motiviert zum Beispiel die M-Schätzung.

Selbst wenn Sie kein Modell angeben können, ist es möglich, ein Modell zu erstellen, für das ML gegenüber Kontamination durch grobe Fehler in der bedingten Verteilung der Antwort robust ist - wobei es beim Gaußschen eine recht gute Effizienz beibehält, aber das potenziell katastrophale vermeidet Auswirkungen beliebig großer Ausreißer.

[Dies ist nicht die einzige Überlegung bei der Regression, da beispielsweise auch die Auswirkungen einflussreicher Ausreißer robust sein müssen, aber es ist ein guter erster Schritt]


Betrachten Sie diesen Prozess der Steigungsschätzer für die Regression, um das Problem selbst mit dem besten linearen Schätzer zu demonstrieren. In diesem Fall gibt es 100 Beobachtungen in jeder Probe, x ist 0/1, die wahre Steigung ist12 und Fehler sind Standard Cauchy. Die Simulation verwendet 1000 Sätze simulierter Daten und berechnet die Schätzung der kleinsten Quadrate der Steigung ("LS") sowie einige nichtlineare Schätzer, die in dieser Situation verwendet werden könnten (beide sind im Cauchy nicht vollständig effizient, aber beide sind vernünftig ) - einer ist ein L1-Schätzer der Linie ("L1") und der zweite berechnet eine einfache L-Schätzung der Position bei den beiden Werten von x und passt eine Linie an, die sie verbindet ("LE").

Boxplots, in denen die Leistung eines Steigungsschätzers für kleinste Quadrate mit einigen für diese Situation geeigneten Schätzungen der Steigung zwischen Robustheit und Bruttofehler verglichen wird

Der obere Teil des Diagramms ist ein Boxplot dieser tausend Steigungsschätzungen für jede Simulation. Der untere Teil ist das mittlere Prozent (ungefähr ist es mit einem schwachen orange-grauen Kästchen im oberen Diagramm markiert) dieses Bildes "gesprengt", damit wir mehr Details sehen können. Wie wir sehen, reichen die Steigungen der kleinsten Quadrate von -771 bis 1224 und die unteren und oberen Quartile sind -1,24 und 2,46. Der Fehler in der LS-Steigung betrug mehr als 10 mehr als 10% der Zeit. Die beiden nichtlinearen Schätzer schneiden viel besser ab - sie arbeiten ziemlich ähnlich, keine der 1000 Steigungsschätzungen ist in beiden Fällen mehr als 0,84 von der tatsächlichen Steigung entfernt, und der mittlere absolute Fehler in der Steigung liegt im Ballpark von jeweils 0,14 (vs 1,86 für den Schätzer der kleinsten Quadrate). Die LS-Steigung hat in diesem Fall einen 223- und 232-fachen RMSE-Wert der L1- und LE-Schätzer.

Es gibt Dutzende anderer vernünftiger Schätzer, die hier verwendet worden sein könnten; Dies war lediglich eine schnelle Berechnung, um zu veranschaulichen, dass selbst die besten / effizientesten linearen Schätzer möglicherweise nicht nützlich sind. Ein ML-Schätzer der Steigung würde eine bessere Leistung (im Sinne von MSE) erzielen als die beiden hier verwendeten robusten Schätzer, aber in der Praxis möchten Sie etwas mit einer gewissen Robustheit gegenüber einflussreichen Punkten.

Glen_b -Reinstate Monica
quelle
Gut gesagt. Das macht sehr viel Sinn. Ich gehe davon aus, dass lineare Schätzer immer noch recht gut funktionieren (vielleicht sogar besser als nichtlineare Schätzer), wenn die abhängige Variable nicht normal, aber immer noch symmetrisch ist. Ist meine Intuition hier richtig?
Great38
1
Nein, Symmetrie reicht nicht aus, um die lineare Schätzung zu retten. Betrachten Sie zum Beispiel Cauchy-Fehler. Es gibt eine beliebige Anzahl geeigneter Schätzer, aber alle sind im beabsichtigten Sinne nichtlinear.
Glen_b -Reinstate Monica
Ich habe eine kleine Simulation durchgeführt, um dieses Problem (möglicherweise willkürlich schlechte Leistung) für symmetrische Fehlerverteilungen zu veranschaulichen - siehe meine Bearbeitung. Diese Simulation dient einer symmetrischen Fehlerverteilung. Sie können sehen, wie katastrophal die kleinsten Quadrate in diesem Fall sein können. In der Tat ist sogar ein winziger Teil der Kontamination mit etwas, das grobe Fehler aufweisen kann, ein Problem dafür. BLAU zu sein kann manchmal überhaupt von geringem Wert sein. Wenn Sie etwas über das Verhalten Ihrer Fehler wissen, ist es möglicherweise eine gute Idee, dieses Wissen zu nutzen ... ctd
Glen_b - Monica
ctd ... (über ML, zum Beispiel, selbst wenn Sie es mit ein wenig Robustheit ergänzen, falls Sie sich irren; wie die Begrenzung der Einflussfunktion des resultierenden M-Schätzers) und wenn Sie nichts wissen - nicht genug, um a anzunehmen Wahrscheinlichkeit überhaupt - es ist nicht unbedingt das potenzielle Risiko wert, anzunehmen, dass ein linearer Schätzer eine gute Wahl ist. Ich würde nicht sagen "benutze niemals die kleinsten Quadrate" (ich benutze es ziemlich regelmäßig, war mir aber sehr bewusst, wie schlecht es möglicherweise funktioniert) - aber BLAU allein bedeutet nicht unbedingt, dass es eine gute Wahl ist.
Glen_b -Reinstate Monica
1

Bei normalverteilten Daten konvergiert OLS mit dem MLE, einer Lösung, die (in diesem Punkt) BLAU ist. Sobald OLS nicht mehr normal ist, ist es nicht mehr BLAU (im Sinne des Gauß-Markov-Theorems) - dies liegt daran, dass OLS versucht, die SSR zu minimieren, während GMT BLAU als minimale SE definiert. Sehen Sie hier mehr .

Im Allgemeinen ist es angesichts des Vorhandenseins eines MLE (Google für "MLE-Fehler" oder für Fälle, in denen kein MLE vorhanden ist) einfacher, ihn anzupassen, entweder um die Varianz zu minimieren oder um ihn unvoreingenommen zu machen (und daher mit anderen Schätzern vergleichbar). .

Spätzle
quelle
3
Die abhängige Variable muss nicht normal sein, damit OLS BLAU ist: en.wikipedia.org/wiki/Gauss%E2%80%93Markov_theorem
Great38
1
... bei normalverteilten Daten, OLS = MLE, konvergiert es nicht. Ihr zweiter Absatz ist auch ziemlich unklar ... einfacher, die MLE anzupassen als was?
Jbowman
OLS ist außerhalb der Normalität immer noch BLAU; Das Problem ist, dass BLAU (und insbesondere das L ) selbst nicht unbedingt nützlich ist.
Glen_b -State Monica