Warum sagt ein GLM den Mittelwert und nicht den Modus eines Signals voraus? Widerspricht dies nicht der Grundlage des GLM, dh der maximalen Wahrscheinlichkeit? Die zu lösenden Gleichungen für die Modellparameter in einem GLM basieren auf der Maximierung der Wahrscheinlichkeit, wie durch die Wahrscheinlichkeitsverteilung des modellierten Signals beschrieben. Diese Wahrscheinlichkeitsverteilung ist maximal für den Modus, nicht für den Mittelwert (die Normalverteilung ist eine Ausnahme: Sowohl Modus als auch Mittelwert sind gleich). Daher sollte ein GLM den Modus vorhersagen , nicht den Mittelwert eines Signals! (Hintergrundinformationen zu dieser Frage finden Sie hier .)
8
Antworten:
Das Ziel der Maximum-Likelihood-Anpassung besteht darin, die Parameter einer Verteilung zu bestimmen, die am besten zu den Daten passen - und allgemeiner, wie diese Parameter mit den Kovariaten variieren können. Im Fall von GLMs wollen wir die Parameter einer exponentiellen Familienverteilung bestimmen und wie sie eine Funktion einiger Kovariaten X sind .θ X
Für jede Wahrscheinlichkeitsverteilung in der überdispersen Exponentialfamilie wird garantiert, dass der Mittelwert über die kanonische Verknüpfungsfunktion θ = g ( μ ) mit dem kanonischen Exponentialfamilienparameter θ in Beziehung steht . Wir können sogar eine allgemeine Formel für g bestimmen , und typischerweise ist g auch invertierbar. Wenn wir einfach μ = g - 1 ( θ ) und θ = X β setzen , erhalten wir automatisch ein Modell dafür, wie μ und θ mit variierenμ θ θ=g(μ) g g μ=g−1(θ) θ=Xβ μ θ , egal mit welcher Verteilung wir es zu tun haben, und dieses Modell kanndurch konvexe Optimierung einfach und zuverlässig an Daten angepasst werden. Matts Antwortzeigt, wie es für die Bernoulli-Distribution funktioniert, aber die wahre Magie ist, dass es für jede Distribution in der Familie funktioniert.X
Der Modus genießt diese Eigenschaften nicht. Wie Cliff AB hervorhebt, hat der Modus möglicherweise nicht einmal eine bijektive Beziehung zum Verteilungsparameter, so dass die Schlussfolgerung aus dem Modus nur eine sehr begrenzte Leistung hat. Nehmen wir zum Beispiel die Bernoulli-Distribution. Sein Modus ist entweder 0 oder 1, und wenn Sie den Modus kennen, erfahren Sie nur, ob , die Wahrscheinlichkeit von 1, größer oder kleiner als 1/2 ist. Im Gegensatz dazu sagt Ihnen der Mittelwert genau, was p ist.p p
Um nun einige Verwirrung in der Frage zu klären: Bei der maximalen Wahrscheinlichkeit geht es nicht darum, den Modus einer Verteilung zu finden, da die Wahrscheinlichkeit nicht dieselbe Funktion wie die Verteilung hat. Die Wahrscheinlichkeit bezieht Ihre Modellverteilung in die Formel ein, aber hier enden die Ähnlichkeiten. Die Wahrscheinlichkeitsfunktion nimmt einen Parameterwert θ als Eingabe und gibt an, wie "wahrscheinlich" Ihr gesamter Datensatz ist, vorausgesetzt , die Modellverteilung hat θ . Die Modellverteilung f & thgr; ( y ) hängt von & thgr ; ab, nimmt jedoch als Funktion einen Wert y anL ( θ ) θ θ fθ( y) θ y als Eingabe und gibt an, wie oft eine Zufallsstichprobe aus dieser Verteilung gleich . Das Maximum von L ( θ ) und der Modus von f θ ( y ) sind nicht dasselbe.y L ( θ ) fθ( y)
Vielleicht hilft es, die Formel der Wahrscheinlichkeit zu sehen. Im Fall von IID-Daten haben wir L ( θ ) = n ∏ i = 1 f θ ( y i ) Die Werte von y i sind alle fest - sie sind die Werte von Ihnen Daten. Die maximale Wahrscheinlichkeit besteht darin, das θ zu finden , das L ( θ ) maximiert . Das Finden des Verteilungsmodus würde das Finden des y finden , das f maximierty1, y2, … , Y.n
Das Finden des Maximums der Wahrscheinlichkeitsfunktion ist also im Allgemeinen nicht dasselbe wie das Finden des Modus der Modellverteilung. (Es ist der Modus einer anderen Distribution, wenn Sie einen objektiven Bayesianer fragen, aber das ist eine ganz andere Geschichte!)
quelle
Hier gibt es zwei Argumente:
Nehmen wir als Arbeitsbeispiel das einfachste nicht triviale glm, das logistische Modell. In der logistischen Regression haben wir eine Antwort dem Wert 0, 1. Wir postulieren, dass y bernoulli verteilt ist, abhängig von unseren Dateny y
Und wir versuchen, den Mittelwert dieser bedingten Verteilung (die in diesem Fall nur ) zu schätzen, indem wir sie mit einer linearen Funktion von X verknüpfenp X.
Wenn wir innehalten und nachdenken, sehen wir in diesem Fall, dass es natürlich ist , wissen zu wollen , was ein Mittelwert einer bedingten Verteilung ist.p
quelle
Vielen Dank für alle Kommentare und Antworten. Obwohl in keinem von ihnen 100% die Antwort auf meine Frage ist, haben mir alle geholfen, den offensichtlichen Widerspruch zu durchschauen. Daher habe ich beschlossen, die Antwort selbst zu formulieren. Ich denke, dies ist eine Zusammenfassung aller Ideen, die in den Kommentaren und Antworten enthalten sind:
quelle