Parameterschätzung mit verallgemeinerten linearen Modellen

9

Wenn wir eine glmFunktion in R verwenden, wird standardmäßig die iterativ neu gewichtete Methode der kleinsten Quadrate (IWLS) verwendet, um die maximale Wahrscheinlichkeitsschätzung der Parameter zu ermitteln. Jetzt habe ich zwei Fragen.

Garantieren IWLS-Schätzungen das globale Maximum der Wahrscheinlichkeitsfunktion? Basierend auf der letzten Folie in dieser Präsentation denke ich, dass dies nicht der Fall ist! Ich wollte nur dafür sorgen.
Können wir sagen, dass der Grund für Frage 1 oben in der Tatsache liegt, dass fast alle numerischen Optimierungsmethoden auf einem lokalen Maximum anstatt auf einem globalen Maximum bleiben können?

r estimation generalized-linear-model maximum-likelihood optimization Stat
quelle

6

Wenn Sie versuchen, Parameter zu schätzen, möchten Sie immer eine geschlossene Lösung. Eine existiert jedoch nicht immer (ich nehme an, es ist möglich, dass es in einigen Fällen eine gibt, aber sie ist derzeit unbekannt). Wenn keine Lösung in geschlossener Form vorhanden ist, muss eine heuristische Strategie angewendet werden, um im Parameterraum nach den bestmöglichen Parameterschätzungen zu suchen. Es gibt viele solche Suchstrategien (zB in R, ? Optim Listen 6 Allzweck - Methoden). Das IRWLS ist eine vereinfachte Version des Newton-Raphson-Algorithmus .

Leider lautet die Antwort auf Ihre [ 1 ], dass keine heuristische Suchstrategie garantiert das globale Minimum (Maximum) findet. Dafür gibt es drei Gründe:

Wie auf Folie 9 Ihrer verknüpften Präsentation angegeben, gibt es möglicherweise keine eindeutige Lösung. Beispiele hierfür können perfekte Multikollinearität sein oder wenn mehr Parameter geschätzt werden müssen als Daten .
Wie auf Folie 10 angegeben (diese Präsentation ist meiner Meinung nach ziemlich gut), kann die Lösung unendlich sein. Dies kann beispielsweise bei einer logistischen Regression passieren, wenn Sie eine perfekte Trennung haben .
Es kann auch vorkommen, dass es ein endliches globales Minimum (Maximum) gibt, das der Algorithmus jedoch nicht findet. Diese Algorithmen (insbesondere IRWLS und NR) beginnen in der Regel an einem bestimmten Ort und "schauen sich um", um festzustellen, ob eine Bewegung in eine Richtung "bergab" bedeutet (dh die Passform verbessert). Wenn ja, wird es in einiger Entfernung in diese Richtung wieder angepasst und wiederholt, bis die erratene / vorhergesagte Verbesserung unter einem bestimmten Schwellenwert liegt. Es gibt also zwei Möglichkeiten, das globale Minimum nicht zu erreichen:
1. Die Sinkgeschwindigkeit vom aktuellen Standort zum globalen Minimum (Maximum) ist zu gering, um den Schwellenwert zu überschreiten, und der Algorithmus stoppt kurz vor der Lösung.
2. Es gibt ein lokales Minimum (Maximum) zwischen dem aktuellen Standort und dem globalen Minimum (Maximum), so dass es dem Algorithmus so erscheint, als würde eine weitere Bewegung zu einer schlechteren Anpassung führen.

Beachten Sie in Bezug auf Ihre [ 2 ], dass unterschiedliche Suchstrategien unterschiedliche Tendenzen haben, in lokalen Minima gefangen zu werden. Sogar dieselbe Strategie kann manchmal angepasst oder von einem anderen Ausgangspunkt aus begonnen werden, um die beiden letztgenannten Probleme anzugehen.

gung - Monica wieder einsetzen
quelle

Danke Gung. Noch eine Frage, wie wir bei der Optimierung einen guten Ausgangspunkt auswählen können?

Stat

Ich weiß nicht, dass es unbedingt einen besten Weg gibt. Manchmal müssen Sie ein paar verschiedene Ausgangspunkte ausprobieren, wenn es nicht konvergiert oder wenn Sie nicht sicher sind, ob Sie im globalen Minimum sind. Ich denke, eine übliche Methode, mit der Programme einen Ausgangspunkt auswählen, besteht darin, die OLS-Schätzungen zu verwenden, auch wenn sie nicht angemessen sind und Sie wissen, dass Sie von dort aus umziehen müssen.

Gung - Reinstate Monica

6

Sie haben Recht, dass IWLS im Allgemeinen wie andere numerische Optimierungsmethoden nur dann eine Konvergenz auf ein lokales Maximum garantieren kann, wenn sie sogar konvergieren. Hier ist ein schönes Beispiel, bei dem der Startwert außerhalb des Konvergenzbereichs für den von glm () in R verwendeten Algorithmus lag. Es ist jedoch anzumerken, dass bei GLMs mit kanonischer Verknüpfung die Wahrscheinlichkeit konkav ist (siehe hier) . Wenn also der Algorithmus konvergiert, ist er in den globalen Modus konvergiert!

Das letzte Problem, auf das auf der Folie hingewiesen wird, ist ein Problem, bei dem die MLE für einen Parameter unendlich ist. Dies kann bei logistischen Regressionen auftreten, bei denen eine vollständige Trennung vorliegt. In einem solchen Fall erhalten Sie eine Warnmeldung, dass die angepassten Wahrscheinlichkeiten numerisch 0 oder 1 sind. Es ist wichtig zu beachten, dass der Algorithmus in diesem Fall nicht in den Modus konvergiert hat und dies daher nicht mit dem Algorithmus zu tun hat in einem lokalen Maximum stecken.

jsk
quelle

Parameterschätzung mit verallgemeinerten linearen Modellen

Antworten: