Ich habe Fischdichtedaten, die ich versuche, zwischen verschiedenen Erfassungstechniken zu vergleichen, die Daten haben viele Nullen, und das Histogramm sieht für eine Poisson-Verteilung angemessen aus, außer dass es sich bei den Dichten nicht um ganzzahlige Daten handelt. Ich bin relativ neu bei GLMs und habe in den letzten Tagen online gesucht, wie man die zu verwendende Distribution erkennt. Es ist mir jedoch völlig misslungen, Ressourcen zu finden, die bei dieser Entscheidung helfen. Ein Beispielhistogramm der Daten sieht folgendermaßen aus:
Ich habe keine Ahnung, wie ich mich für die geeignete Familie für den GLM entscheiden soll. Wenn jemand einen Rat hat oder mir eine Ressource geben könnte, die ich überprüfen sollte, wäre das fantastisch.
Antworten:
GLM-Familien umfassen eine Verknüpfungsfunktion sowie eine Mittelwert-Varianz-Beziehung. Bei Poisson-GLMs ist die Verknüpfungsfunktion ein Protokoll, und die Mittelwert-Varianz-Beziehung ist die Identität. Trotz der Warnungen, die Ihnen die meisten statistischen Programme geben, ist es durchaus sinnvoll, eine Beziehung in kontinuierlichen Daten zu modellieren, bei der die Beziehung zwischen zwei Variablen auf der logarithmischen Skala linear ist und die Varianz entsprechend dem Mittelwert zunimmt.
Dies ist im Wesentlichen der Grund für die Auswahl der Verknüpfungs- und Varianzfunktion in einem GLM. Natürlich gibt es mehrere Annahmen hinter diesem Prozess. Sie können ein robusteres Modell erstellen, indem Sie quasilikelihood (siehe
?quasipoisson
) oder robuste Standardfehler (siehe Paketsandwich
odergee
) verwenden.Sie haben richtig festgestellt, dass in Ihren Daten viele Dichten 0 sind. Bei Poisson-Wahrscheinlichkeitsmodellen ist es angebracht, gelegentlich Nullen in den Daten abzutasten, sodass diese Beobachtungen nicht unbedingt zu Verzerrungen bei Ihren Schätzungen der Raten führen.
Um die Annahmen zu überprüfen, die hinter GLMs stehen, ist es normalerweise hilfreich, die Pearson-Residuen zu betrachten. Diese berücksichtigen die mittlere Varianzbeziehung und zeigen dem Statistiker, ob bestimmte Beobachtungen wie diese Nullen die Schätzung und die Ergebnisse in ungeheurer Weise beeinflussen.
quelle
Das verallgemeinerte lineare Modell wird als linearer Prädiktor definiert
X = X 1 , X 2 , … , X kY. X= X1, X2, … , Xk Y. X
Das Modell kann also probabilistisch definiert werden als
Wenn Ihr Ergebnis stetig und unbegrenzt ist, ist die Gauß-Verteilung (auch als Normalverteilung bezeichnet ), dh die standardmäßige lineare Regression , die am häufigsten als "Standard" festgelegt wurde (sofern Sie keine andere Link-Funktion als den Standard-Identitätslink verwenden).
Wenn Sie mit einem kontinuierlichen, nicht negativen Ergebnis zu tun haben , können Sie die Gamma-Verteilung oder die inverse Gauß-Verteilung in Betracht ziehen .
Wenn Ihr Ergebnis diskret ist oder genauer gesagt, Sie es mit Zählungen zu tun haben (wie oft etwas in einem bestimmten Zeitintervall passiert), ist die häufigste Wahl für die Verteilung, mit der Sie beginnen, die Poisson-Verteilung . Das Problem mit der Poisson-Verteilung ist, dass sie ziemlich unflexibel ist, da sie annimmt, dass der Mittelwert gleich der Varianz ist. Wenn diese Annahme nicht erfüllt ist, können Sie die Verwendung der Quasi-Poisson- Familie oder der negativen Binomialverteilung in Betracht ziehen (siehe auch Definition der Dispersion) Parameter für die Quasipoisson-Familie ).
Wenn Ihr Ergebnis binär ist (Nullen und Einsen), Anteile von "Erfolgen" und "Fehlern" (Werte zwischen 0 und 1) oder deren Anzahl , können Sie die Binomialverteilung verwenden , dh das logistische Regressionsmodell . Wenn es mehr als zwei Kategorien gibt, würden Sie die multinomiale Verteilung in der multinomialen Regression verwenden .
Wenn Sie andererseits in der Praxis ein Vorhersagemodell erstellen möchten, möchten Sie möglicherweise nur wenige verschiedene Verteilungen testen und am Ende feststellen, dass eine von ihnen genauere Ergebnisse liefert als die anderen, auch wenn dies nicht der Fall ist theoretisch am "angemessensten" (z. B. sollten Sie theoretisch Poisson verwenden, in der Praxis funktioniert die lineare Standardregression jedoch am besten für Ihre Daten).
quelle
Dies ist eine ziemlich weit gefasste Frage, Sie fragen sich, wie man modelliert, und dafür gibt es ganze Bücher. Beachten Sie beispielsweise beim Umgang mit Zähldaten Folgendes:
Zusätzlich zur Auswahl einer Distribution müssen Sie eine Verknüpfungsfunktion auswählen. Mit Zähldaten können Sie Poisson- oder negative Binomialverteilung und Protokollverknüpfungsfunktion versuchen. Hier wird ein Grund für die Protokollverknüpfung angegeben: Anpassungsgüte und das zu wählende Modell für lineare Regression oder Poisson Wenn Ihre Patches sehr unterschiedliche Bereiche haben, sollten Sie möglicherweise den Logarithmus der Fläche als Versatz angeben, um die Anzahl pro Flächeneinheit und nicht absolut zu modellieren zählt. Eine Erläuterung des Versatzes in der Zähldatenregression finden Sie unter Wann wird ein Versatz in einer Poisson-Regression verwendet?
Diese Antwort wurde ursprünglich auf eine andere Frage gestellt, die mit dieser Frage zusammengeführt wurde. Während die Antwort allgemein gehalten ist, wurden Details eines Datensatzes und eines Problems kommentiert, die nicht mehr in Frage kommen. Die ursprüngliche Frage finden Sie unter folgendem Link: Familie in GLM - Wie wählen Sie die richtige aus?
quelle