Diese Frage befasst sich mit der eingeschränkten Maximalwahrscheinlichkeitsschätzung (REML) in einer bestimmten Version des linearen Modells, nämlich:
Wobei eine durch ; parametrisierte ( ) Matrix ist , wie auch . ist ein unbekannter Vektor von Störparametern; das Interesse liegt in der Schätzung von , und wir haben . Das Modell nach der maximalen Wahrscheinlichkeit abzuschätzen ist kein Problem, aber ich möchte REML verwenden. Es ist bekannt, siehe z. B. LaMotte , dass die Wahrscheinlichkeit , wobei eine beliebige Matrix ist, so dass geschrieben werden kann
wenn volle Spaltenrang ist .
Mein Problem ist, dass für einige absolut vernünftige und wissenschaftlich interessante die Matrix nicht den vollen Spaltenrang hat. Alle Ableitungen, die ich von der oben genannten eingeschränkten Wahrscheinlichkeit gesehen habe, verwenden Determinantengleichungen, die nicht anwendbar sind, wenn , dh sie nehmen den vollen Spaltenrang von . Dies bedeutet, dass die obige eingeschränkte Wahrscheinlichkeit nur für meine Einstellung auf Teile des Parameterraums richtig ist und daher nicht das ist, was ich optimieren möchte.X ( α ) | X ' X | = 0 X
Frage: Gibt es allgemeinere eingeschränkte Wahrscheinlichkeiten, die in der statistischen Literatur oder anderswo abgeleitet wurden, ohne die Annahme, dass der volle Spaltenrang ist? Wenn ja, wie sehen sie aus?
Einige Beobachtungen:
- Das Ableiten des exponentiellen Teils ist für jedes kein Problem, und es kann in Form der Moore-Penrose-Inverse wie oben beschrieben geschrieben werden
- Die Spalten von sind eine (beliebige) orthonormale Basis fürC ( X ) ⊥
- Für bekanntes kann die Wahrscheinlichkeit für leicht für jedes Alpha notiert werden , aber natürlich hängt die Anzahl der Basisvektoren, dh der Spalten, in A vom Spaltenrang von X abA ' Y α A X
Wenn jemand, der sich für diese Frage interessiert, der Meinung ist, dass die genaue Parametrisierung von hilfreich ist, lass es mich wissen und ich werde sie aufschreiben. An dieser Stelle bin ich jedoch hauptsächlich an einem REML für ein allgemeines mit den richtigen Abmessungen interessiert .
Eine detailliertere Beschreibung des Modells folgt hier. Sei einr dimensionale Vektorautoregression erster Ordnung [VAR (1)], wobei . Angenommen, der Prozess wird in einem festen Wert zum Zeitpunkt gestartet .y 0 t = 0
Definiere . Das Modell kann in der linearen Modellform Verwendung der folgenden Definitionen und Notation geschrieben werden: Y = X β + ε
wobei bezeichnet dimensionaler Vektor von Einsen und der erste Standard Basisvektor von .
Bezeichne . Beachten Sie, dass, wenn kein voller Spaltenrang ist kein voller Rang ist. Dies schließt zum Beispiel Fälle ein, in denen eine der Komponenten von nicht von der Vergangenheit abhängt.
Die Idee der Schätzung von VARs unter Verwendung von REML ist beispielsweise in der Literatur zu prädiktiven Regressionen gut bekannt (siehe z. B. Phillips und Chen und die darin enthaltenen Referenzen).
Es kann sich lohnen, klarzustellen, dass die Matrix keine Entwurfsmatrix im üblichen Sinne ist, sondern nur aus dem Modell herausfällt und es keine gibt a priori - Wissen über ist, soweit ich das beurteilen kann, keine Möglichkeit zu parametrieren es ist voller Rang.
Ich habe eine Frage zu math.stackexchange gestellt , die sich auf diese in dem Sinne bezieht, dass eine Antwort auf die mathematische Frage hilfreich sein kann, um eine Wahrscheinlichkeit abzuleiten, die diese Frage beantworten würde.
Antworten:
Ich habe Zweifel, dass diese Beobachtung richtig ist. Die verallgemeinerte Inverse schränkt Ihre Schätzer zusätzlich linear ein [Rao & Mitra], daher sollten wir die gemeinsame Wahrscheinlichkeit als Ganzes betrachten, anstatt zu raten, dass die Moore-Penrose-Inverse für den exponentiellen Teil funktioniert. Dies scheint formal korrekt zu sein, aber Sie verstehen das gemischte Modell wahrscheinlich nicht richtig.
Sie müssen das Mixed-Effekt-Modell auf eine andere Weise überlegen, bevor Sie versuchen, die g-Inverse (ODER Moore-Penrose-Inverse, eine spezielle Art der reflexiven g-Inverse [Rao & Mitra]) mechanisch in die von RMLE (Restricted) gegebene Formel einzufügen Maximum Likelihood Estimator (siehe unten).
Eine übliche Denkweise für einen gemischten Effekt ist, dass der zufällige Effektteil in der Entwurfsmatrix durch einen Messfehler eingefügt wird, der einen anderen Namen "stochastischer Prädiktor" trägt, wenn wir uns mehr für die Vorhersage als für die Schätzung interessieren. Dies ist auch eine historische Motivation für das Studium der stochastischen Matrix in der Statistik.
Unter Berücksichtigung der Wahrscheinlichkeit ist die Wahrscheinlichkeit, dass nicht den vollen Rang hat, Null. Dies liegt daran, dass die Determinantenfunktion in Matrixeinträgen stetig ist und die Normalverteilung eine stetige Verteilung ist, die einem einzelnen Punkt eine Wahrscheinlichkeit von Null zuweist. Die Wahrscheinlichkeit eines fehlerhaften Rangs ist positiv, wenn Sie ihn auf pathologische Weise wie folgt parametrisieren: .X(α) X(α) ⎛⎝⎜ααααrandomeffect⎞⎠⎟
Die Lösung Ihrer Frage ist also auch ziemlich einfach: Sie stören einfach Ihre Entwurfsmatrix (stören Sie nur den Part mit festem Effekt) und verwenden Sie die gestörte Matrix (die den vollen Rang hat), um alle Ableitungen durchzuführen. Wenn Ihr Modell keine komplizierten Hierarchien hat oder selbst nahezu singulär ist, sehe ich kein ernstes Problem, wenn Sie im Endergebnis nehmen, da die Determinantenfunktion stetig ist und wir die Grenze innerhalb der Determinantenfunktion nehmen können. . Und in Störungsform die Umkehrung vonXϵ(α)=X(α)+ϵ(I000) X ϵ→0 limϵ→0|Xϵ|=|limϵ→0Xϵ| Xϵ kann durch Sherman-Morrision-Woodbury Theorem erhalten werden. Die Determinante von Matrix ist in einem Standardbuch zur linearen Algebra wie [Horn & Johnson] angegeben. Natürlich können wir die Determinante in Bezug auf jeden Eintrag in der Matrix schreiben, aber eine Störung wird immer bevorzugt [Horn & Johnson].I+X
Wie Sie sehen, sollten wir den Zufallseffektteil im Modell als eine Art "Störparameter" betrachten. Das Problem ist: Ist RMLE der geeignetste Weg, um einen Störparameter zu eliminieren? Auch bei GLM- und Mixed-Effect-Modellen ist RMLE bei weitem nicht die einzige Wahl. [Basu] wies darauf hin, dass viele andere Möglichkeiten zur Beseitigung von Parametern bei der Festlegung der Schätzung. Heutzutage tendieren die Menschen dazu, zwischen RMLE- und Bayes-Modellierung zu wählen, da sie zwei gängigen computergestützten Lösungen entsprechen: EM und MCMC.
Meiner Meinung nach ist es definitiv besser, einen Prior in die Situation des fehlerhaften Ranges in den Fixeffektteil einzuführen. Oder Sie können Ihr Modell neu parametrisieren, um es zu einem vollständigen Modell zu machen.
Falls Ihr fester Effekt nicht den vollen Rang hat, können Sie sich über der falsch spezifizierten Kovarianzstruktur Sorgen machen, da die Freiheitsgrade in festen Effekten in den Fehlerteil eingehen sollten. Um diesen Punkt klarer zu sehen, sollten Sie das MLE (auch LSE) für das GLS (General least squre) berücksichtigen. wobei die Kovarianzstruktur des Fehlerausdrucks ist, für den Fall, dass nicht den vollen Rang hat.β^=(XΣ−1X′)−1Σ−1y Σ X(α)
Das Problem besteht nicht darin, wie Sie das RMLE ändern, damit es funktioniert, wenn ein Teil der Matrix mit festen Effekten nicht den vollen Rang hat. Das Problem ist, dass in diesem Fall Ihr Modell selbst problematisch sein kann, wenn ein nicht vollständiger Fall eine positive Wahrscheinlichkeit hat.
Ein relevanter Fall, auf den ich gestoßen bin, ist, dass die Leute im räumlichen Fall den Rang eines Teils mit festem Effekt aufgrund von rechnerischen Überlegungen reduzieren möchten [Wikle].
Ich habe in einer solchen Situation keinen "wissenschaftlich interessanten" Fall gesehen. Können Sie auf Literatur verweisen, in der der nicht vollständige Fall von größter Bedeutung ist? Ich würde gerne weiter wissen und diskutieren, danke.
[Rao & Mitra] Rao, Calyampudi Radhakrishna und Sujit Kumar Mitra. Verallgemeinerte Inverse von Matrizen und ihren Anwendungen. Vol. 7. New York: Wiley, 1971.
[Basu] Basu, Debabrata. "Über die Beseitigung von Störparametern." Journal of the American Statistical Association 72.358 (1977): 355 & ndash; 366.
[Horn & Johnson] Horn, Roger A. und Charles R. Johnson. Matrixanalyse. Cambridge University Press, 2012.
[Wikle] Wikle, Christopher K. "Geringwertige Darstellungen für räumliche Prozesse." Handbook of Spatial Statistics (2010): 107-118.
quelle