Die Maximum-Likelihood-Schätzung führt häufig zu verzerrten Schätzern (z. B. ist ihre Schätzung für die Stichprobenvarianz für die Gauß-Verteilung verzerrt).
Was macht es dann so beliebt? Warum genau wird es so oft verwendet? Was macht es besonders besser als die alternative Methode der Momente?
Außerdem ist mir aufgefallen, dass eine einfache Skalierung des MLE-Schätzers für den Gaußschen unparteiisch macht. Warum ist diese Skalierung kein Standardverfahren? Ich meine - Warum ist es nach der MLE-Berechnung nicht Routine, die notwendige Skalierung zu finden, um den Schätzer vorurteilsfrei zu machen? Die Standardpraxis scheint die einfache Berechnung der MLE-Schätzungen zu sein, außer natürlich für den bekannten Gaußschen Fall, in dem der Skalierungsfaktor bekannt ist.
Antworten:
Unvoreingenommenheit allein ist nicht unbedingt besonders wichtig.
Abgesehen von einer sehr begrenzten Anzahl von Umständen sind die meisten nützlichen Schätzer voreingenommen, sie werden jedoch erhalten.
Wenn zwei Schätzer die gleiche Varianz haben, kann man leicht ein Argument dafür vorbringen, einen unvoreingenommenen gegenüber einem voreingenommenen zu bevorzugen, aber das ist eine ungewöhnliche Situation (das heißt, Sie mögen vernünftigerweise unvoreingenommen sein, ceteris paribus - aber diese nervenaufreibenden ceteris sind fast nie paribus ).
Noch typischer, wenn Sie Unparteilichkeit wollen, werden Sie eine gewisse Varianz hinzufügen, um sie zu erhalten, und dann würde die Frage sein, warum Sie das tun würden ?
Die Verzerrung gibt an, wie weit der erwartete Wert meines Schätzers im Durchschnitt zu hoch sein wird (negative Verzerrung bedeutet zu niedrig).
Wenn ich über einen kleinen Stichprobenschätzer nachdenke, ist mir das eigentlich egal. Normalerweise interessiert mich mehr, wie weit mein Schätzer in diesem Fall falsch sein wird - mein typischer Abstand von rechts ... so etwas wie ein quadratischer Fehler oder ein mittlerer absoluter Fehler wäre sinnvoller.
Wenn Sie also eine geringe Varianz und eine geringe Verzerrung bevorzugen, ist es sinnvoll , nach einem Schätzer für den minimalen mittleren quadratischen Fehler zu fragen . diese sind sehr selten unvoreingenommen.
Verzerrung und Unparteilichkeit ist ein nützlicher Begriff, dessen Sie sich bewusst sein sollten, aber es ist keine besonders nützliche Eigenschaft, die Sie suchen sollten, es sei denn, Sie vergleichen nur Schätzer mit derselben Varianz.
ML-Schätzer tendieren dazu, eine geringe Varianz zu haben. Sie sind in der Regel kein Mindest-MSE-Wert, haben aber häufig einen niedrigeren MSE-Wert, als wenn Sie sie ändern, um unvoreingenommen zu sein (wenn Sie das überhaupt können).
Als Beispiel betrachten wir Abschätzen Varianz , wenn sie von einer Normalverteilung Abtasten σ 2 MMSE = S 2 (in der Tat hat die MMSE für die Varianz immer einen größeren Nenner alsn-1).σ^2MMSE= S2n + 1, σ^2MLE= S2n, σ^2Unb= S2n - 1 n - 1
quelle
MLE liefert den wahrscheinlichsten Wert der Modellparameter in Anbetracht des Modells und der vorliegenden Daten - was ein ziemlich attraktives Konzept ist. Warum sollten Sie Parameterwerte auswählen, die die Wahrschein- lichkeit der beobachteten Daten verringern , wenn Sie die Werte auswählen können, die die Wahrschein- lichkeit der beobachteten Daten über alle Wertemengen hinweg erhöhen? Möchten Sie diese Funktion für Unparteilichkeit opfern? Ich sage nicht, dass die Antwort immer klar ist, aber die Motivation für MLE ist ziemlich stark und intuitiv.
Außerdem ist MLE meines Wissens möglicherweise umfassender anwendbar als die Methode der Momente. MLE scheint bei latenten Variablen natürlicher zu sein; Beispielsweise kann ein Modell mit gleitendem Durchschnitt (MA) oder ein Modell mit generalisierter autoregressiver bedingter Heteroskedastizität (GARCH) direkt von MLE geschätzt werden (dh es reicht aus, eine Wahrscheinlichkeitsfunktion anzugeben und einer Optimierungsroutine zu unterziehen) nicht durch die Methode der Momente (obwohl indirekte Lösungen unter Verwendung der Methode der Momente existieren können).
quelle
Tatsächlich schätzt die Skalierung des Maximum - Likelihood , um unverzerrte Schätzungen zu erhalten , ist ein Standardverfahren in vielen Schätzproblemen. Der Grund dafür ist, dass das mle eine Funktion der ausreichenden Statistik ist. Wenn Sie also nach dem Rao-Blackwell-Theorem einen unverzerrten Schätzer finden, der auf ausreichenden Statistiken basiert, haben Sie einen Schätzer für die minimale Varianz ohne Verzerrung.
Ich weiß, dass Ihre Frage allgemeiner ist, aber ich möchte betonen, dass Schlüsselbegriffe in engem Zusammenhang mit der Wahrscheinlichkeit und den darauf basierenden Schätzungen stehen. Diese Schätzungen sind in endlichen Stichproben möglicherweise nicht unverzerrt, jedoch asymptotisch und darüber hinaus asymptotisch effizient, dh, sie erreichen die Cramer-Rao-Varianzgrenze für unverzerrte Schätzer, was für die MOM-Schätzer möglicherweise nicht immer der Fall ist.
quelle
Um Ihre Frage zu beantworten, warum das MLE so beliebt ist, sollten Sie bedenken, dass es zwar voreingenommen sein kann, aber unter Standardbedingungen konsistent ist. Darüber hinaus ist es asymptotisch effizient, sodass der MLE zumindest für große Stichproben wahrscheinlich genauso gut oder besser abschneidet als jeder andere Schätzer, den Sie sich ausgedacht haben. Schließlich wird die MLE durch ein einfaches Rezept gefunden; nimm die Wahrscheinlichkeitsfunktion und maximiere sie. In einigen Fällen kann es schwierig sein, dieses Rezept zu befolgen, bei den meisten Problemen jedoch nicht. Sobald Sie diese Schätzung haben, können wir die asymptotischen Standardfehler außerdem sofort anhand der Fisher-Informationen ableiten. Ohne die Informationen des Fischers ist es oft sehr schwierig, die Fehlergrenzen abzuleiten.
Dies ist der Grund, warum die MLE-Schätzung sehr oft der bevorzugte Schätzer ist (es sei denn, Sie sind Bayesianer). Es ist einfach zu implementieren und wahrscheinlich genauso gut, wenn nicht sogar besser als alles andere, was Sie tun müssen, um mehr zu kochen.
quelle
Ich würde hinzufügen, dass wir manchmal (oft) einen MLE-Schätzer verwenden, weil wir das haben, auch wenn es in einer idealen Welt nicht das ist, was wir wollen. (Ich betrachte Statistiken oft als Engineering, bei dem wir das verwenden, was wir haben und nicht das, was wir wollen.) In vielen Fällen ist es einfach, das MLE zu definieren und zu lösen und dann einen Wert mithilfe eines iterativen Ansatzes zu erhalten. Für einen bestimmten Parameter in einer bestimmten Situation gibt es möglicherweise einen besseren Schätzer (für einen bestimmten Wert von "besser"), aber um diesen zu finden, ist es möglicherweise sehr klug. und wenn Sie fertig sind, klug zu sein, haben Sie immer noch nur den besseren Schätzer für dieses eine bestimmte Problem.
quelle