Was kann mit MLE schief gehen, wenn ich einige Schätzungen der ersten Stufe anstelle einiger Parameter ersetze?

7

Angenommen, ich beschäftige mich anfangs mit der Log-Likelihood-Funktion , wobei \ theta_j \ in \ mathbb {R} .logL(θ1,,θm,θm+1,,θk)θjR

Angenommen, ich habe aus irgendeinem Grund beschlossen, einige Schätzungen der ersten Stufe \ tilde {\ theta} _ {m + 1} , \ ldots , \ tilde {\ theta} _k, die auf andere Weise erhalten wurden, in \ log L einzugeben und dann \ zu maximieren log L über \ theta_1 , \ ldots , \ theta_m . Alle \ tilde {\ theta} _ {m + 1} , \ ldots , \ tilde {\ theta} _k sind konsistente Schätzer der wahren Parameterwerte \ theta_ {0, m + 1} , \ ldots , \ theta_ {0, k} .logLθ~m+1θ~klogLθ1θmθ~m+1θ~kθ0,m+1θ0,k

Meine Frage ist: Was kann in diesem Fall möglicherweise mit der MLE schief gehen? Hat der MLE-Schätzer θ^1 , , θ^m die gleichen asymptotischen Eigenschaften wie zuvor? Hängt irgendetwas von den Konvergenzraten von θ~m+1 , , θ~k ?

Alik
quelle
2
Gute Frage. Ich arbeite an etwas, das in diese Kategorie fällt. Ich denke, so etwas nennt man "Plug-in-Wahrscheinlichkeit", aber ich bin daran interessiert zu sehen, welche Antworten Sie erhalten. Ich denke, dieses Papier könnte relevant sein: sciencedirect.com/science/article/pii/S0304414913000811
Gammer

Antworten:

3

Ihre Technik maximiert im Wesentlichen die bedingte Log-Wahrscheinlichkeit, abhängig von . Die vollständige maximale Log-Wahrscheinlichkeit ist das Maximum dieses bedingten Maximums über alle diese anderen Parameter. Dies wird sehr häufig verwendet, um Wahrscheinlichkeitsabtastungen zu erzeugen, insbesondere wenn und nur ein bedingter Parameter vorhanden ist. Die maximale Log-Wahrscheinlichkeit als Funktion von ist nützlich, um ein Konfidenzintervall für .θ~m+1,,θ~kk=m+1θ~kθk

Philosophisch gesehen ist es immer so , dass bedingte Parameter festgelegt sind - Sie können Ihrem Modell jederzeit zusätzliche Parameter hinzufügen. Jede Wahrscheinlichkeitsfunktion ist eine bedingte Wahrscheinlichkeitsfunktion und umgekehrt; Die Maximierung einer bedingten Log-Likelihood-Funktion verfügt über alle statistischen Eigenschaften, die Sie von der Maximierung einer Likelihood-Funktion erwarten können. Die einzigen Unterschiede sind nicht statistischer Natur und betreffen die Annahmen, die hinter der Maximierung stehen. Wie sinnvoll ist es beispielsweise, das Modell zu vereinfachen? Normalerweise Sie vielleicht wissen, dass Sie einen genauen Wert fürθ~koder dass es ein domänenspezifisches (nicht statistisches) Argument dafür gibt, dass es einen bestimmten Wert hat. Beispielsweise wird bei OLS (einer Art von Wahrscheinlichkeitsmaximierung) angenommen, dass die Fehler symmetrisch, gaußsch und unabhängig von den erklärenden Variablen sind (z. B. nicht heteroskedastisch). Sie können jederzeit Parameter für Schiefe, Nicht-Gauß-Beziehung und Heteroskedasität hinzufügen. Dies wird jedoch häufig als unnötig eingestuft. *

In Ihrem Fall haben Sie nur eine statistische Schätzung mit einem gewissen Konfidenzintervall. Die entscheidende Frage ist, ob Ihre Schätzungen aus denselben Daten stammen, die während der Wahrscheinlichkeitsmaximierung verwendet wurden, oder aus einem unabhängigen Datensatz. Im letzteren Fall führen Sie ein sehr häufiges Verfahren durch. Ein Ad-hoc-Verfahren, mit dem Sie versuchen könnten, Unsicherheiten von auf Ihr Endergebnis zu übertragen, könnte darin bestehen, Ihrθ~θ~innerhalb ihrer Konfidenzintervalle in einer Art parametrischem Bootstrap und Maximierung der bedingten Log-Wahrscheinlichkeit für jede Stichprobe, wodurch sich ein erweitertes Konfidenzintervall ergibt. Eine andere Technik besteht darin, die Parameter in der Log-Wahrscheinlichkeit schweben zu lassen, aber Einschränkungsterme für ihre Konfidenzintervalle hinzuzufügen. Beispiel: Multiplizieren Sie die Wahrscheinlichkeit mit einem Gaußschen PDF , wobei Sie irrelevante Konstanten ignorieren.exp((θkθ~k)2/2σk2)

Wenn Ihre Schätzungen jedoch mit denselben Daten erstellt werden, die für die Wahrscheinlichkeitsmaximierung verwendet wurden, ist Ihre Prozedur fragwürdiger. Wenn Sie den Satz von als feste Gegebenheiten verwenden, ist die Maximierung der bedingten Log-Wahrscheinlichkeit statistisch gültig, aber es wird nicht garantiert, dass sie mit den Konfidenzintervallen, die Sie für Ihr . Die obigen Verfahren zum Hinzufügen von Einschränkungstermen zur Wahrscheinlichkeit oder zum parametrischen Abtasten der Parameter sind ungültig, da die Parameter dann von demselben Datensatz doppelt bestraft werden. Sie könnenθ~θ~θ~θ~m+1,,θ~kin einem Raster, das ein angemessenes Konfidenzintervall abdeckt. Nur Sie können feststellen, ob dies besser / einfacher ist, als einfach die gesamte Protokollwahrscheinlichkeit zu maximieren.

ANMERKUNGEN

  • Vielleicht nicht das beste Beispiel, da normalerweise empfohlen wird, die diagnostischen Diagramme / Residuen für eine OLS-Regression zu untersuchen, um diese Dinge zu überprüfen. Die besseren Beispiele, die ich finden könnte, sind domänenspezifisch.
jwimberley
quelle