Wie funktioniert eine Poisson-Verteilung bei der Modellierung kontinuierlicher Daten und führt dies zu Informationsverlust?

20

Eine Mitarbeiterin analysiert einige biologische Daten für ihre Dissertation mit böser Heteroskedastizität (Abbildung unten). Sie analysiert es mit einem gemischten Modell, hat aber immer noch Probleme mit den Residuen.

Durch die Protokolltransformation der Antwortvariablen werden die Dinge bereinigt, und basierend auf dem Feedback zu dieser Frage scheint dies ein geeigneter Ansatz zu sein. Ursprünglich hatten wir jedoch gedacht, dass es Probleme bei der Verwendung transformierter Variablen mit gemischten Modellen gibt. Es stellt sich heraus , dass wir eine Erklärung in Littell & Milliken (2006) falsch interpretiert hatte SAS für gemischte Modelle , die wurde unter Hinweis darauf , warum es unangemessen ist , zu transformieren Zahl Daten und dann zu analysieren , mit einem normalen linearen gemischten Modell (full Zitat ist unten) .

Ein Ansatz, der auch die Residuen verbesserte, war die Verwendung eines verallgemeinerten linearen Modells mit einer Poisson-Verteilung. Ich habe gelesen, dass die Poisson-Distribution zum Modellieren kontinuierlicher Daten verwendet werden kann (wie in diesem Beitrag beschrieben ), und Statistikpakete erlauben dies, aber ich verstehe nicht, was passiert, wenn das Modell passt.

Um zu verstehen, wie die zugrunde liegenden Berechnungen durchgeführt werden, lauten meine Fragen: Wenn Sie eine Poisson-Verteilung an kontinuierliche Daten anpassen, 1) werden die Daten auf die nächste ganze Zahl gerundet, 2) geht dabei Informationen verloren, und 3) Wann ist es angemessen, ein Poisson-Modell für kontinuierliche Daten zu verwenden?

Littel & Milliken 2006, S. 529 "Das Transformieren der [count] -Daten kann kontraproduktiv sein. Beispielsweise kann eine Transformation die Verteilung der zufälligen Modelleffekte oder die Linearität des Modells verzerren. Noch wichtiger ist, dass das Transformieren der Daten die Möglichkeit offen lässt Folglich ist die Schlussfolgerung aus einem gemischten Modell unter Verwendung transformierter Daten sehr verdächtig. "

Bildbeschreibung hier eingeben

N Brouwer
quelle
1
Ich kenne keinen Grund, warum Sie Variablen nicht vor einem gemischten Modell transformieren sollten, und ich habe ziemlich viel zu diesem Thema gelesen. Ich habe das Buch Ramon und Littel ... auf welche Seite verweisen Sie?
Peter Flom - Wiedereinsetzung von Monica
Es stellte sich heraus, dass wir eine Aussage auf S. 529 falsch interpretiert haben.
N Brouwer

Antworten:

21

Ich habe ziemlich häufig Poisson-Regressionen mit dem linearisierten Huber / White / Sandwich-Varianzschätzer geschätzt. Dies ist jedoch kein besonders guter Grund, etwas zu unternehmen. Hier finden Sie einige aktuelle Referenzen.

y

Es gibt auch einige ermutigende Simulationsnachweise von Santos Silva und Tenreyro (2006), bei denen der Poisson als Best-in-Show ausgezeichnet wurde. Dies gelingt auch in einer Simulation mit vielen Nullen im Ergebnis . Sie können auch ganz einfach eine eigene Simulation durchführen, um sich davon zu überzeugen, dass dies in Ihrem Schneeflockenetui funktioniert.

Schließlich können Sie auch ein GLM mit einer Protokollverknüpfungsfunktion und einer Poisson-Familie verwenden. Dies liefert identische Ergebnisse und besänftigt die Nur-Daten-Knie-Ruck-Reaktionen.

Verweise ohne ungebundene Links:

Gourieroux, C., A. Monfort und A. Trognon (1984). "Pseudo-Maximum-Likelihood-Methoden: Anwendungen auf Poisson-Modelle" Econometrica , 52, 701-720.

Dimitriy V. Masterov
quelle
2
Siehe auch diesen netten Blogeintrag im Stata-Blog von Bill Gould - blog.stata.com/2011/08/22/…
boscovich
y
Es gibt einen verwandten Beitrag im Stata-Blog, der zusätzliche Simulationsnachweise bietet .
Dimitriy V. Masterov
6

Die Poisson-Verteilung ist nur für die Zählung von Daten gedacht. Der Versuch, sie mit fortlaufenden Daten zu füttern, ist böse und sollte meines Erachtens nicht durchgeführt werden. Einer der Gründe ist, dass Sie nicht wissen, wie Sie Ihre stetige Variable skalieren sollen. Und der Poisson hängt sehr vom Maßstab ab! Ich habe versucht, es hier mit einem einfachen Beispiel zu erklären . Allein aus diesem Grund würde ich Poisson nur für die Zählung von Daten verwenden.

Denken Sie auch daran, dass GLM zwei Funktionen ausführt: Link-Funktion (Transformation der Antwortvariable, Protokoll in Poisson-Fall) und Residuen (Poisson-Verteilung in diesem Fall). Denken Sie über die biologische Aufgabe nach, über die Reste und wählen Sie dann die richtige Methode. Manchmal ist es sinnvoll, die Protokolltransformation zu verwenden, aber bei normalverteilten Residuen zu bleiben.

"Aber es scheint, als ob konventionelle Weisheit darin besteht, Daten, die in ein gemischtes Modell eingegeben werden, nicht zu transformieren."

Das höre ich zum ersten Mal! Macht für mich überhaupt keinen Sinn. Ein gemischtes Modell kann genau wie ein normales lineares Modell sein, nur mit zusätzlichen zufälligen Effekten. Können Sie hier ein genaues Zitat einfügen? Meiner Meinung nach, wenn log transform die Dinge aufklärt, benutze es einfach!

Neugierig
quelle
Danke für die Hilfe; Was ich für "konventionelle Weisheit" hielt, war eine Fehlinterpretation von Littel und Milliken. Ich habe meine Frage bearbeitet und das Zitat von L & M 2006 hinzugefügt.
N Brouwer
@NBrouwer: Ja, es scheint, dass du es falsch interpretiert hast. Es ist fies, Zähldaten umzuwandeln, und noch fieser, kontinuierliche Daten in Zähldaten umzuwandeln und zu versuchen, Poisson darauf abzustimmen! Das habe ich dir zu erklären versucht. Tu es nicht. Verwandeln Sie Ihre fortlaufenden Daten einfach nach Bedarf in Protokolle . Dies ist in der Statistik weit verbreitet, Sie müssen sich also keine Sorgen machen.
Neugierig
5

Hier ist eine weitere gute Diskussion darüber, wie das Poisson-Modell für die Anpassung der Protokollregressionen verwendet werden kann: http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/ (Ich sage es einem Freund, genau wie der Blogeintrag vorschlägt). Der Grundgedanke ist, dass wir nur den Teil des Poisson-Modells verwenden, der die Protokollverknüpfung ist. Der Teil, für den die Varianz gleich dem Mittelwert sein muss, kann mit einer Sandwich-Schätzung der Varianz überschrieben werden. Dies ist jedoch alles für iid-Daten. Die Clustered / Mixed-Model-Erweiterungen wurden von Dimitriy Masterov ordnungsgemäß referenziert .

StasK
quelle
1

Wenn das Problem die Varianzskalierung mit dem Mittelwert ist, Sie jedoch kontinuierliche Daten haben, haben Sie darüber nachgedacht, kontinuierliche Verteilungen zu verwenden, die die auftretenden Probleme bewältigen können. Vielleicht ein Gamma? Die Varianz hat eine quadratische Beziehung zum Mittelwert - genau wie ein negatives Binomial.

jebyrnes
quelle