Meine Fragen sind:
- Werden generalisierte lineare Modelle (GLMs) garantiert zu einem globalen Maximum konvergieren? Wenn ja warum?
- Welche Einschränkungen gibt es für die Verbindungsfunktion, um die Konvexität sicherzustellen?
Mein Verständnis von GLMs ist, dass sie eine hochgradig nichtlineare Wahrscheinlichkeitsfunktion maximieren. Daher würde ich mir vorstellen, dass es mehrere lokale Maxima gibt und der Parametersatz, zu dem Sie konvergieren, von den Anfangsbedingungen für den Optimierungsalgorithmus abhängt. Nach einigen Recherchen habe ich jedoch keine einzige Quelle gefunden, die darauf hinweist, dass es mehrere lokale Maxima gibt. Außerdem bin ich mit Optimierungstechniken nicht so vertraut, aber ich weiß, dass die Newton-Raphson-Methode und der IRLS-Algorithmus für lokale Maxima sehr anfällig sind.
Bitte erläutern Sie möglichst sowohl intuitiv als auch mathematisch!
BEARBEITEN: dksahuji hat meine ursprüngliche Frage beantwortet, aber ich möchte die Anschlussfrage [ 2 ] oben hinzufügen . ("Welche Einschränkungen gibt es für die Verbindungsfunktion, um die Konvexität sicherzustellen?")
quelle
Antworten:
Die Definition der Exponentialfamilie lautet:
wobei die Log-Partitionsfunktion ist. Nun kann man beweisen, dass die folgenden drei Dinge für 1D gelten (und sie verallgemeinern sich auf höhere Dimensionen - Sie können Eigenschaften von Exponentialfamilien oder Protokollpartitionen untersuchen):A ( θ )
Das obige Ergebnis beweist, dass konvex ist (da c o v ( ϕ ( x ) ) positiv semidefinit ist). Nun werfen wir einen Blick auf die Wahrscheinlichkeitsfunktion für MLE:A ( θ ) c o v (ϕ(x))
Nun ist linear in Theta und - A ( θ ) konkav ist . Daher gibt es ein eindeutiges globales Maximum.θT[ ϕ ( D ) ] - A ( θ )
Es gibt eine verallgemeinerte Version, die als gekrümmte Exponentialfamilie bezeichnet wird und ebenfalls ähnlich wäre. Die meisten Beweise sind jedoch in kanonischer Form.
quelle