Angenommen, ich beschäftige mich anfangs mit der Log-Likelihood-Funktion , wobei \ theta_j \ in \ mathbb {R} .
Angenommen, ich habe aus irgendeinem Grund beschlossen, einige Schätzungen der ersten Stufe \ tilde {\ theta} _ {m + 1} , \ ldots , \ tilde {\ theta} _k, die auf andere Weise erhalten wurden, in \ log L einzugeben und dann \ zu maximieren log L über \ theta_1 , \ ldots , \ theta_m . Alle \ tilde {\ theta} _ {m + 1} , \ ldots , \ tilde {\ theta} _k sind konsistente Schätzer der wahren Parameterwerte \ theta_ {0, m + 1} , \ ldots , \ theta_ {0, k} .
Meine Frage ist: Was kann in diesem Fall möglicherweise mit der MLE schief gehen? Hat der MLE-Schätzer , , die gleichen asymptotischen Eigenschaften wie zuvor? Hängt irgendetwas von den Konvergenzraten von , , ?
Antworten:
Ihre Technik maximiert im Wesentlichen die bedingte Log-Wahrscheinlichkeit, abhängig von . Die vollständige maximale Log-Wahrscheinlichkeit ist das Maximum dieses bedingten Maximums über alle diese anderen Parameter. Dies wird sehr häufig verwendet, um Wahrscheinlichkeitsabtastungen zu erzeugen, insbesondere wenn und nur ein bedingter Parameter vorhanden ist. Die maximale Log-Wahrscheinlichkeit als Funktion von ist nützlich, um ein Konfidenzintervall für .θ~m+1,…,θ~k k=m+1 θ~k θk
Philosophisch gesehen ist es immer so , dass bedingte Parameter festgelegt sind - Sie können Ihrem Modell jederzeit zusätzliche Parameter hinzufügen. Jede Wahrscheinlichkeitsfunktion ist eine bedingte Wahrscheinlichkeitsfunktion und umgekehrt; Die Maximierung einer bedingten Log-Likelihood-Funktion verfügt über alle statistischen Eigenschaften, die Sie von der Maximierung einer Likelihood-Funktion erwarten können. Die einzigen Unterschiede sind nicht statistischer Natur und betreffen die Annahmen, die hinter der Maximierung stehen. Wie sinnvoll ist es beispielsweise, das Modell zu vereinfachen? Normalerweise Sie vielleicht wissen, dass Sie einen genauen Wert fürθ~k oder dass es ein domänenspezifisches (nicht statistisches) Argument dafür gibt, dass es einen bestimmten Wert hat. Beispielsweise wird bei OLS (einer Art von Wahrscheinlichkeitsmaximierung) angenommen, dass die Fehler symmetrisch, gaußsch und unabhängig von den erklärenden Variablen sind (z. B. nicht heteroskedastisch). Sie können jederzeit Parameter für Schiefe, Nicht-Gauß-Beziehung und Heteroskedasität hinzufügen. Dies wird jedoch häufig als unnötig eingestuft. *
In Ihrem Fall haben Sie nur eine statistische Schätzung mit einem gewissen Konfidenzintervall. Die entscheidende Frage ist, ob Ihre Schätzungen aus denselben Daten stammen, die während der Wahrscheinlichkeitsmaximierung verwendet wurden, oder aus einem unabhängigen Datensatz. Im letzteren Fall führen Sie ein sehr häufiges Verfahren durch. Ein Ad-hoc-Verfahren, mit dem Sie versuchen könnten, Unsicherheiten von auf Ihr Endergebnis zu übertragen, könnte darin bestehen, Ihrθ~ θ~ innerhalb ihrer Konfidenzintervalle in einer Art parametrischem Bootstrap und Maximierung der bedingten Log-Wahrscheinlichkeit für jede Stichprobe, wodurch sich ein erweitertes Konfidenzintervall ergibt. Eine andere Technik besteht darin, die Parameter in der Log-Wahrscheinlichkeit schweben zu lassen, aber Einschränkungsterme für ihre Konfidenzintervalle hinzuzufügen. Beispiel: Multiplizieren Sie die Wahrscheinlichkeit mit einem Gaußschen PDF , wobei Sie irrelevante Konstanten ignorieren.exp(−(θk−θ~k)2/2σ2k)
Wenn Ihre Schätzungen jedoch mit denselben Daten erstellt werden, die für die Wahrscheinlichkeitsmaximierung verwendet wurden, ist Ihre Prozedur fragwürdiger. Wenn Sie den Satz von als feste Gegebenheiten verwenden, ist die Maximierung der bedingten Log-Wahrscheinlichkeit statistisch gültig, aber es wird nicht garantiert, dass sie mit den Konfidenzintervallen, die Sie für Ihr . Die obigen Verfahren zum Hinzufügen von Einschränkungstermen zur Wahrscheinlichkeit oder zum parametrischen Abtasten der Parameter sind ungültig, da die Parameter dann von demselben Datensatz doppelt bestraft werden. Sie könnenθ~ θ~ θ~ θ~m+1,…,θ~k in einem Raster, das ein angemessenes Konfidenzintervall abdeckt. Nur Sie können feststellen, ob dies besser / einfacher ist, als einfach die gesamte Protokollwahrscheinlichkeit zu maximieren.
ANMERKUNGEN
quelle