Warum sagen GLMs den Mittelwert und nicht den Modus voraus?

Warum sagt ein GLM den Mittelwert und nicht den Modus eines Signals voraus? Widerspricht dies nicht der Grundlage des GLM, dh der maximalen Wahrscheinlichkeit? Die zu lösenden Gleichungen für die Modellparameter in einem GLM basieren auf der Maximierung der Wahrscheinlichkeit, wie durch die Wahrscheinlichkeitsverteilung des modellierten Signals beschrieben. Diese Wahrscheinlichkeitsverteilung ist maximal für den Modus, nicht für den Mittelwert (die Normalverteilung ist eine Ausnahme: Sowohl Modus als auch Mittelwert sind gleich). Daher sollte ein GLM den Modus vorhersagen , nicht den Mittelwert eines Signals! (Hintergrundinformationen zu dieser Frage finden Sie hier .)

generalized-linear-model maximum-likelihood mean mode Nukimov
quelle

Ich bin etwas zu verrostet, um dies als Antwort zu geben, aber ich glaube, die Idee ist, dass es eine Verteilung der wahrscheinlichen bedingten Mittel gibt, und der GLM liefert den Modus dieser Verteilung. (Es ist also die modale Schätzung des Mittelwerts.)

Shea Parkes

Ich habe Ihren Titel so bearbeitet, dass er das StackExchange-Modell widerspiegelt. Fragen sind Fragen, keine Meinungsbeiträge. (Sie sollten versuchen zu vermeiden, dass der Körper Ihrer Frage wie eine Art

Scherz klingt

Beachten Sie, dass die Wahrscheinlichkeit eine Funktion der Parameter ist, während das Modell versucht, die Verteilung der Daten zu beschreiben. Es gibt keine Inkonsistenz. Betrachten Sie in der Tat eine logistische Regression für Binärdaten, bei der die angepassten Proportionen zwischen 0,2 und 0,475 liegen. Der Modus der Bernoulli-Verteilung ist jeweils 0 - Sie sagen also, dass das Modell vollständig aus 0 bestehen sollte? Das ist viel weniger nützlich als ein Modell für den Mittelwert.

Glen_b -Rate State Monica

Nur eine Randnotiz: Der Modus Ihrer Antwort kann äußerst uninformativ sein. Im extremsten Beispiel ist der Modus einer Bernoulli-Verteilung immer entweder 0 oder 1.

Cliff AB

Die maximale Wahrscheinlichkeit, die maximiert wird, ist nicht die Dichte der Verteilung der Daten, sondern die Wahrscheinlichkeit des Parameters.

Glen_b -Rate State Monica

Antworten:

Das Ziel der Maximum-Likelihood-Anpassung besteht darin, die Parameter einer Verteilung zu bestimmen, die am besten zu den Daten passen - und allgemeiner, wie diese Parameter mit den Kovariaten variieren können. Im Fall von GLMs wollen wir die Parameter einer exponentiellen Familienverteilung bestimmen und wie sie eine Funktion einiger Kovariaten . $\theta$ $X$

Für jede Wahrscheinlichkeitsverteilung in der überdispersen Exponentialfamilie wird garantiert, dass der Mittelwert über die kanonische Verknüpfungsfunktion mit dem kanonischen Exponentialfamilienparameter in Beziehung steht . Wir können sogar eine allgemeine Formel für bestimmen , und typischerweise ist invertierbar. Wenn wir einfach und , erhalten wir automatisch ein Modell dafür, wie und variieren $\mu$ $\mathbf{\theta}$ $\theta = g(\mu)$ $g$ $g$ $\mu = g^{-1}(\theta)$ $\theta = X\beta$ $\mu$ $\theta$ , egal mit welcher Verteilung wir es zu tun haben, und dieses Modell kanndurch konvexe Optimierung einfach und zuverlässig an Daten angepasst werden. Matts Antwortzeigt, wie es für die Bernoulli-Distribution funktioniert, aber die wahre Magie ist, dass es für jede Distribution in der Familie funktioniert. $X$

Der Modus genießt diese Eigenschaften nicht. Wie Cliff AB hervorhebt, hat der Modus möglicherweise nicht einmal eine bijektive Beziehung zum Verteilungsparameter, so dass die Schlussfolgerung aus dem Modus nur eine sehr begrenzte Leistung hat. Nehmen wir zum Beispiel die Bernoulli-Distribution. Sein Modus ist entweder 0 oder 1, und wenn Sie den Modus kennen, erfahren Sie nur, ob , die Wahrscheinlichkeit von 1, größer oder kleiner als 1/2 ist. Im Gegensatz dazu sagt Ihnen der Mittelwert genau, was ist. $p$ $p$

Um nun einige Verwirrung in der Frage zu klären: Bei der maximalen Wahrscheinlichkeit geht es nicht darum, den Modus einer Verteilung zu finden, da die Wahrscheinlichkeit nicht dieselbe Funktion wie die Verteilung hat. Die Wahrscheinlichkeit bezieht Ihre Modellverteilung in die Formel ein, aber hier enden die Ähnlichkeiten. Die Wahrscheinlichkeitsfunktion nimmt einen Parameterwert als Eingabe und gibt an, wie "wahrscheinlich" Ihr gesamter Datensatz ist, vorausgesetzt , die Modellverteilung hat . Die Modellverteilung hängt von ; ab, nimmt jedoch als Funktion einen Wert $L(\theta)$ $\theta$ $\theta$ $f_\theta(y)$ $\theta$ $y$ als Eingabe und gibt an, wie oft eine Zufallsstichprobe aus dieser Verteilung gleich . Das Maximum von und der Modus von sind nicht dasselbe. $y$ $L(\theta)$ $f_\theta(y)$

Vielleicht hilft es, die Formel der Wahrscheinlichkeit zu sehen. Im Fall von IID-Daten haben wir Die Werte von sind alle fest - sie sind die Werte von Ihnen Daten. Die maximale Wahrscheinlichkeit besteht darin, das , das maximiert . Das Finden des Verteilungsmodus würde das Finden des , das maximiert $y_1,y_2,\ldots,y_n$

L (θ) = \prod_{i = 1}^{n} f_{θ} (y_{i})

$L(\theta) = \prod_{i=1}^n f_\theta(y_i)$

y_{i}

$y_i$

θ

$\theta$

L (θ)

$L(\theta)$

y

$y$

, was wir nicht wollen:

ist in der Wahrscheinlichkeit festgelegt, keine Variable.

f_{θ} (y)

$f_\theta(y)$

y

$y$

Das Finden des Maximums der Wahrscheinlichkeitsfunktion ist also im Allgemeinen nicht dasselbe wie das Finden des Modus der Modellverteilung. (Es ist der Modus einer anderen Distribution, wenn Sie einen objektiven Bayesianer fragen, aber das ist eine ganz andere Geschichte!)

Paul
quelle

Hier gibt es zwei Argumente:

Die Tatsachen, dass ein glm versucht, als Mittelwert einer bedingten Verteilung vorherzusagen , und seine Parameter durch maximale Wahrscheinlichkeit schätzt, sind konsistent. $y$ $\beta$
Das Schätzen der Parameter anhand der maximalen Wahrscheinlichkeit bestimmt nicht den Modus einer Verteilung. Zumindest nicht in der klassischen Formulierung eines glm.

Nehmen wir als Arbeitsbeispiel das einfachste nicht triviale glm, das logistische Modell. In der logistischen Regression haben wir eine Antwort dem Wert 0, 1. Wir postulieren, dass bernoulli verteilt ist, abhängig von unseren Daten $y$ $y$

y ∣ X \sim B e r n o u l l i (p (X))

$y \mid X \sim Bernoulli(p(X))$

Und wir versuchen, den Mittelwert dieser bedingten Verteilung (die in diesem Fall nur ) zu schätzen, indem wir sie mit einer linearen Funktion von verknüpfen $p$ $X$

\log (\frac{p}{1 - p}) = X β

$\log\left(\frac{p}{1-p}\right) = X \beta$

Wenn wir innehalten und nachdenken, sehen wir in diesem Fall, dass es natürlich ist , wissen zu wollen , was ein Mittelwert einer bedingten Verteilung ist. $p$

$p$ $\beta$ $\beta$ $y$ $X$ $\beta$

P (y ∣ X, β) = p^{y} (1 - p)^{1 - y}

$P \left( y \mid X, \beta \right) = p^y (1-p)^{1-y}$

$p$ $\beta$ $X$

$y$

$\beta$ $X$ $y$

L (β) = p^{y} (1 - p)^{1 - y}

$L(\beta) = p^y (1-p)^{1-y}$

$L$

$L$ $\beta$

Matthew Drury
quelle

Vielen Dank für alle Kommentare und Antworten. Obwohl in keinem von ihnen 100% die Antwort auf meine Frage ist, haben mir alle geholfen, den offensichtlichen Widerspruch zu durchschauen. Daher habe ich beschlossen, die Antwort selbst zu formulieren. Ich denke, dies ist eine Zusammenfassung aller Ideen, die in den Kommentaren und Antworten enthalten sind:

$f(y; \theta, \phi)$ $f$

$f(y; \theta, \phi)$ $f$ $y$ $\boldsymbol\beta$ $f$ $\boldsymbol\beta$ $y$ $\boldsymbol\beta$ $\boldsymbol\beta$ $f$ $\boldsymbol\beta$ $y$ (was in der Tat der Modus wäre), ist die Ausgabe des Maximierungsprozesses.
$\boldsymbol\mu$ $\boldsymbol\beta$ $\boldsymbol\mu$

Nukimov
quelle