Was ist der Unterschied zwischen der Maximierung der bedingten (logarithmischen) Wahrscheinlichkeit oder der gemeinsamen (logarithmischen) Wahrscheinlichkeit bei der Schätzung der Parameter eines Modells?

Betrachten Sie eine Antwort y und Datenmatrix X . Angenommen, ich erstelle ein Modell des Formulars -

y ~ g (X, ) $\theta$

(g () könnte eine beliebige Funktion von X und ) $\theta$

Zur Schätzung von $\theta$ Verwendung der Maximum Likelihood (ML) -Methode könnte ich entweder mit der bedingten ML (vorausgesetzt, ich kenne die Form der bedingten Dichte f (y | X) ) oder mit der Gelenk-ML (vorausgesetzt, ich kenne die Form der Verbindung) fortfahren Dichte f (y, X) oder äquivalent f (X | y) * f (y) )

Ich habe mich gefragt, ob es irgendwelche Überlegungen gibt, mit einer der beiden oben genannten Methoden fortzufahren, abgesehen von der Annahme über die Dichten. Gibt es auch Fälle (bestimmte Datentypen), in denen eine Methode die andere meistens überfordert?

estimation maximum-likelihood optimization Steadyfish
quelle

Wenn Sie viele Daten haben, denke ich, dass die Fugendichten stärker sind.

user541686

Es hängt davon ab, was Sie später mit Ihrem Modell machen möchten.

Gemeinsame Modelle versuchen, die gesamte Verteilung über $X$ und vorherzusagen $y$ . Es hat einige nützliche Eigenschaften:

Ausreißererkennung. Proben, die sich sehr von Ihren Trainingsproben unterscheiden, können identifiziert werden, da sie eine geringe Grenzwahrscheinlichkeit haben. Ein bedingtes Modell ist nicht unbedingt ein Ballen, um Ihnen dies zu sagen.
Manchmal ist es einfacher zu optimieren. Wenn Ihr Modell beispielsweise ein Gaußsches Mischungsmodell war, gibt es gut dokumentierte Möglichkeiten, es an die Gelenkdichte anzupassen, die Sie einfach anschließen können (Erwartungsmaximierung, Variationsfelder), aber die Dinge werden komplizierter, wenn Sie es bedingt trainieren möchten.
Je nach Modell kann das Training möglicherweise parallelisiert werden, indem die Vorteile der bedingten Unabhängigkeit genutzt werden. Sie können auch vermeiden, dass Sie es später erneut trainieren müssen, wenn neue Daten verfügbar werden. Wenn beispielsweise jede Randverteilung separat parametrisiert wird und Sie eine neue Stichprobe beobachten , ist die einzige Randverteilung, die Sie neu trainieren müssen, . Die anderen Randverteilungen bleiben unberührt. Diese Eigenschaft ist bei bedingten Modellen weniger verbreitet. $f(X|y)$ $(X=x_1,y=y_1)$ $f(X|y=y_1)$ $f(X|y=y_2), f(X|y=y_3), \ldots$
Ich erinnere mich, dass ich ein Papier gelesen habe, in dem angegeben wurde, dass gemeinsame Modelle in Fällen, in denen es viele, viele Daten gibt, einige andere nette Eigenschaften haben, sich aber nicht an die genaue Behauptung erinnern oder sie in meinem großen Ordner mit interessanten Papieren finden können. Wenn ich es später finde, werde ich eine Referenz einfügen.

Bedingte Modelle haben jedoch auch einige interessante Eigenschaften

Sie können wirklich gut arbeiten.
Einige haben viel Arbeit in die Suche nach vernünftigen Optimierungsstrategien gesteckt (z. B. Support-Vektor-Maschinen).
Die bedingte Verteilung ist sehr oft "einfacher" zu modellieren als das Gelenk - um das letztere zu modellieren, müssen Sie das erstere sowie die Randverteilung modellieren. Wenn Sie nur genaue Vorhersagen darüber erhalten möchten, welcher Wert für ein bestimmtes , kann es sinnvoller sein, die Kapazität Ihres Modells darauf zu konzentrieren, dies allein darzustellen. $y$ $X$

Klopfen
quelle

Danke für die Antwort. Können Sie bitte auch Links zu einschlägiger Literatur angeben?

Steadyfish

Was ist der Unterschied zwischen der Maximierung der bedingten (logarithmischen) Wahrscheinlichkeit oder der gemeinsamen (logarithmischen) Wahrscheinlichkeit bei der Schätzung der Parameter eines Modells?

Antworten: