Ich trage eine Poisson - Regression mit dem Endziel aus zu vergleichen (und die Differenz der Einnahme) die vorhergesagten mittleren Zählungen zwischen zwei Faktorstufen in meinem , während anderes Modell Kovariaten halten (das ist alle binäre ) konstant. Ich habe mich gefragt, ob irgendjemand einen praktischen Rat geben kann, wann ein Protokolllink anstelle eines Identitätslinks zu verwenden ist. Welche Vor- und Nachteile haben diese beiden unterschiedlichen Verknüpfungsfunktionen bei der Poisson-Regression, wenn ich das Ziel habe, Unterschiede zu vergleichen?
Ich habe auch das gleiche Ziel für eine logistische / binomiale Regression (Verwendung eines Logit-Links oder eines Identity-Links) im Sinn, um den Unterschied in den Anteilen zwischen zwei Faktorstufen zu vergleichen, und benötige einen ähnlichen Rat. Ich habe hier einige Posts gelesen, die sich mit diesem Thema befassen, aber keiner scheint zu erklären, warum oder wann man einen Link über den anderen wählt und was die Vor- / Nachteile sein könnten. Vielen Dank im Voraus für Ihre Hilfe!
AKTUALISIEREN:
Mir ist auch klar, dass der Hauptzweck der Verwendung bestimmter Verknüpfungsfunktionen darin besteht, den Bereich möglicher vorhergesagter Werte auf den Bereich der mittleren Antwort zu beschränken (z. B. ist der Bereich für die Logistik auf 0 bis 1 und für das Protokoll beschränkt Link, die Vorhersagen sind auf positive Zahlen beschränkt). Ich frage mich also, ob ich, wenn ich einen Identitätslink für eine logistische / binomiale Regression verwende und meine Ergebnisse innerhalb des Bereichs (0,1) liegen, wirklich eine logistische Verknüpfungsfunktion verwenden muss oder nicht Könnte ich einfach das Denken vereinfachen und einen Identitätslink verwenden?
quelle
Antworten:
Nachteile eines Identitätslinks bei der Poisson-Regression sind:
Letztendlich ist dies jedoch eine empirische Frage. Passen Sie beide Modelle. Führen Sie nach Belieben Überprüfungen durch. Wenn der Identitätslink einen niedrigeren AIC hat und bei allen anderen Überprüfungen mindestens genauso gut funktioniert, führen Sie ihn mit dem Identitätslink aus.
Im Fall des Logit-Modells im Vergleich zum linearen Wahrscheinlichkeitsmodell (dh, was Sie als Identitätsverknüpfung bezeichnen) ist die Situation viel einfacher. Abgesehen von einigen sehr exotischen Fällen in der Ökonometrie (die Sie bei einer Suche finden), ist das logit-Modell besser: Es macht weniger Annahmen und wird von den meisten Menschen verwendet. Die Verwendung des linearen Wahrscheinlichkeitsmodells an seiner Stelle wäre fast pervers.
Was die Interpretation der Modelle angeht , gibt es bei Verwendung von R zwei großartige Pakete, die das ganze schwere Heben erledigen: Effekte , die sehr einfach zu verwenden sind, und zelig , die schwieriger zu verwenden sind, aber großartig, wenn Sie Vorhersagen treffen möchten .
quelle
Bei Poisson-Modellen würde ich auch sagen, dass die Anwendung häufig vorschreibt, ob Ihre Kovariaten additiv (was dann eine Identitätsverknüpfung impliziert) oder multiplikativ auf einer linearen Skala (was dann eine Protokollverknüpfung impliziert) wirken. Aber Poisson - Modelle mit einer Identitätsverknüpfung sind normalerweise nur sinnvoll und können nur dann stabil angepasst werden, wenn man den angepassten Koeffizienten Nicht - Negativitätsbeschränkungen auferlegt - dies kann über die
nnpois
Funktion im R -addreg
Paket oder über diennlm
Funktion im R - Paket erfolgenNNLM
Paket. Daher stimme ich nicht zu, dass man Poisson-Modelle sowohl mit einer Identität als auch mit einem Log-Link ausstatten sollte und sieht, welches das beste AIC hat und welches aus rein statistischen Gründen das beste Modell ableitet Grundstruktur des Problems, das man zu lösen versucht, oder der vorliegenden Daten.Beispielsweise würde man in der Chromatographie (GC / MS-Analyse) häufig das überlagerte Signal mehrerer ungefähr Gauß-förmiger Peaks messen und dieses überlagerte Signal wird mit einem Elektronenvervielfacher gemessen, was bedeutet, dass die gemessenen Signale Ionenzahlen und daher Poisson-verteilt sind. Da jeder der Peaks per Definition eine positive Höhe hat und additiv wirkt und das Rauschen Poisson ist, wäre hier ein nichtnegatives Poisson-Modell mit Identitätsverknüpfung angebracht, und ein logarithmisches Poisson-Modell wäre einfach falsch. In der Technik wird Kullback-Leibler-Verlust häufig als Verlustfunktion für solche Modelle verwendet, und die Minimierung dieses Verlusts entspricht der Optimierung der Wahrscheinlichkeit eines nichtnegativen Poisson-Modells mit Identitätsverknüpfung (es gibt auch andere Divergenz- / Verlustmaße wie Alpha- oder Betadivergenz) die Poisson als Sonderfall haben).
Nachfolgend finden Sie ein numerisches Beispiel, einschließlich einer Demonstration, dass ein reguläres, nicht eingeschränktes Identitätslink-Poisson-GLM nicht passt (aufgrund des Fehlens von Nicht-Negativitätsbeschränkungen), sowie einige Details zur Anpassung nicht negativer Identitätslink-Poisson-Modelle
nnpois
hier im Zusammenhang mit der Entfaltung einer gemessenen Überlagerung von chromatographischen Peaks mit Poisson-Rauschen unter Verwendung einer bandierten Kovariatenmatrix, die verschobene Kopien der gemessenen Form eines einzelnen Peaks enthält. Nicht-Negativität ist hier aus mehreren Gründen wichtig: (1) Es ist das einzige realistische Modell für die vorliegenden Daten (Spitzen können hier keine negativen Höhen haben). (2) Es ist die einzige Möglichkeit, ein Poisson-Modell mit Identitätsverknüpfung (as) stabil anzupassen andernfalls könnten Vorhersagen für einige kovariate Werte negativ werden, was keinen Sinn macht und numerische Probleme ergeben würde, wenn man versuchen würde, die Wahrscheinlichkeit zu bewerten In der Regel treten bei Ihnen keine Überanpassungsprobleme auf, wie dies bei einer normalen, nicht eingeschränkten Regression der Fall ist.Nicht-Negativitätsbeschränkungen führen zu spärlicheren Schätzungen, die häufig näher an der Grundwahrheit liegen; B. ist die Leistung ungefähr so gut wie die LASSO-Regularisierung, ohne dass ein Regularisierungsparameter eingestellt werden muss. (Die mit L0-Pseudonorm bestrafte Regression schneidet zwar immer noch etwas besser ab, ist jedoch mit einem höheren Rechenaufwand verbunden. )quelle