Ich arbeite derzeit daran, Todesfälle durch AIDS im Laufe der Zeit mithilfe eines GLM in R zu modellieren. Ich weiß, dass es zwei mögliche Optionen für die Verknüpfungsfunktion für Poisson-Daten gibt, log und Quadratwurzel.
Ich weiß, dass die Quadratwurzel Variabilitätsprobleme ausgleichen würde, während logarithmisch die Kurve begradigen muss. Aber wie kann ich tatsächlich testen, welcher Link für die Daten besser ist?
Antworten:
Sie verwechseln den Effekt einer Datentransformation mit der Verwendung einer Verknüpfungsfunktion in einem GLM.
In einem GLM wird die Verknüpfungsfunktion jedoch nicht zum Transformieren der Daten verwendet.
Das GLM selbst berücksichtigt die Tatsache, dass die Varianz des Poisson mit dem Mittelwert zunimmt; Sie müssen nichts dagegen tun (solange die Poisson-Annahme geeignet ist).
Das einzige, was es übrig ließ, um die Beziehung zwischen dem Prädiktor und der Antwort zu erklären. Die Verknüpfungsfunktion gibt die Form der Beziehung zwischen dem bedingten Mittelwert der Antwort und dem Prädiktor an.
Der sqrt-Link wird hauptsächlich zum Vergleich mit einer älteren Analyse verwendet, bei der eine Quadratwurzeltransformation verwendet wurde, um die Regression der kleinsten Quadrate anzuwenden. Mithilfe des Quadratwurzel-Links können Sie ein Modell derselben Funktionsform anpassen, jedoch mit vollständiger ML-Schätzung der Parameter.
Wenn Sie erwägen, das Protokoll zu verwenden, weil es die Beziehung linearisiert, ist dies definitiv der Link, den Sie verwenden sollten. (Im Allgemeinen ist der Protokolllink auch leichter zu interpretieren.)
Wenn Sie beide Verbindungsfunktionen wirklich unterhalten und zwischen ihnen wählen möchten, können Sie die AICs vergleichen. oder Sie können die Abweichungen vergleichen (es gibt natürlich auch andere Möglichkeiten, aber beide sind bereits in der zusammenfassenden Ausgabe enthalten und messen "fit"; je nachdem, was Sie betrachten, sollten sie zu derselben Schlussfolgerung führen). Wenn es jedoch keinen eindeutigen Hinweis darauf gibt, dass die Protokollverknüpfung unzureichend ist oder einen anderen Grund, die Quadratwurzelverknüpfung zu unterhalten, würde ich einfach die Protokollverknüpfung durchführen.
Beachten Sie, dass nachfolgende Hypothesentests von Koeffizienten, die aus denselben Datenpunkten geschätzt werden, (unter anderem) ihre nominalen Eigenschaften nicht mehr haben, wenn Sie die Daten verwenden, um zwischen den Verknüpfungsfunktionen zu wählen (Standardfehler sind zu klein, Konfidenzintervalle zu eng , p-Werte bedeuten nicht dasselbe ...)
(Übrigens sind dies nicht die einzigen beiden Verbindungsfunktionsoptionen für einen Poisson in R, da es auch den Identitätslink gibt ... und das zählt nicht, was Sie tun können, wenn Sie zu einer Quasi-Poisson-Anpassung wechseln.)
Eine Warnung: Wenn Sie eine Variable im Laufe der Zeit modellieren, sollten Sie berücksichtigen, dass (a) wahrscheinlich eine Zeitabhängigkeit in Ihren Zählungen besteht, die die GLM-Annahmen der Unabhängigkeit ungültig macht (z. B. könnten Ihre Standardfehler leicht auftreten falsch liegen); und (b) der Begriff der falschen Regression kann für eine Poisson-Regression genauso leicht gelten wie für eine gewöhnliche Regression (daher können Ihre Parameterschätzungen auch leicht falsch / irreführend sein).
Ich bezweifle , dass Ihre Serie stationär sein wird, so dass dies möglicherweise eine ernsthafte Bedrohung ist auf Ihre Schlussfolgerungen - aber falsche Regression kann ein Problem auch bei stationärer Serie sein (ein Punkt, der nicht so weit verstanden wird, gebe ich eine Referenz für den in diesem Antwort, welche Antwort auch das Phänomen mit Korrelationen im instationären Fall anhand eines einfachen Beispiels für das Werfen von Münzen veranschaulicht.
quelle
Wenn Sie ein GLiM mit einer für die Antwort angegebenen Poisson-Verteilung anpassen, müssen Sie nicht versuchen, die bedingte Varianz der Antwort zu stabilisieren. Das wird automatisch für Sie erledigt. Das Poisson GLiM geht nicht von einer konstanten Varianz in dem Sinne aus, wie es ein reguläres lineares (Gaußsches) Regressionsmodell tut.
Der Effekt der Verknüpfungsfunktion besteht darin, die Form der Regressionslinie im ursprünglichen Datenraum zu ändern und dadurch die Interpretation der Koeffizienten zu ändern. Wenn Sie sich Sorgen machen, ob die Form / das Ausmaß der Krümmung angemessen ist, können Sie immer Splines verwenden. Daher möchten Sie möglicherweise anhand der Interpretierbarkeit Ihrer Koeffizienten auswählen, welcher Link verwendet werden soll. Meiner Meinung nach wird dies normalerweise den Protokolllink begünstigen.
Wenn Sie nur Ihre Kovariaten ohne Spline-Funktionen verwenden und bestimmen möchten, welche Form besser zu Ihren Daten passt, können Sie die Kreuzvalidierung verwenden und den Vorhersagefehler außerhalb der Stichprobe untersuchen.
Obwohl im Zusammenhang mit binomialen GLiMs (nicht Poisson) geschrieben, könnten Sie dennoch daran interessiert sein, meine Antwort hier zu lesen: Unterschied zwischen Logit- und Probit-Modellen .
quelle