Das scheint so elementar zu sein, aber ich bleibe immer an diesem Punkt stecken ...
Die meisten Daten, mit denen ich zu tun habe, sind nicht normal, und die meisten Analysen basieren auf einer GLM-Struktur. Für meine aktuelle Analyse habe ich eine Antwortvariable, die "Gehgeschwindigkeit" (Meter / Minute) ist. Es fällt mir leicht zu erkennen, dass ich OLS nicht verwenden kann, aber dann habe ich große Unsicherheit darüber, welche Familie (Gamma, Weibull usw.) geeignet ist!
Ich benutze Stata und sehe mir Diagnosen wie Residuen und Heteroskedastizität, Residuen vs. angepasste Werte usw. an.
Mir ist bekannt, dass Zähldaten die Form einer Rate haben können (z. B. Inzidenzraten) und Gamma (das Analogon zu überdispersen diskreten negativen Binomialmodellen) verwendet haben, aber ich möchte nur, dass eine "rauchende Waffe" JA sagt, SIE HABEN DAS RECHT FAMILIE. Ist die Betrachtung der standardisierten Residuen im Vergleich zu den angepassten Werten der einzige und beste Weg, dies zu tun? Ich möchte ein gemischtes Modell verwenden, um auch eine gewisse Hierarchie in den Daten zu berücksichtigen, muss aber zuerst herausfinden, welche Familie meine Antwortvariable am besten beschreibt.
Jede Hilfe dankbar. Stata-Sprache besonders geschätzt!
Antworten:
Ich habe einige Tipps:
(1) Wie Residuen mit Anpassungen verglichen werden sollten, ist nicht immer ganz klar. Daher ist es gut, mit der Diagnose für bestimmte Modelle vertraut zu sein. In logistischen Regressionsmodellen wird zum Beispiel die Hosmer-Lemeshow-Statistik verwendet, um die Anpassungsgüte zu bewerten. Hebelwerte sind in der Regel klein, wenn die geschätzten Gewinnchancen sehr groß, sehr klein oder ungefähr gleich sind. & bald.
(2) Manchmal kann eine Modellfamilie als Sonderfall einer anderen angesehen werden, sodass Sie einen Hypothesentest für einen Parameter verwenden können, um die Auswahl zu erleichtern. Exponential vs Weibull zum Beispiel.
(3) Das Informationskriterium von Akaike ist hilfreich bei der Auswahl zwischen verschiedenen Modellen, einschließlich der Auswahl zwischen verschiedenen Familien.
(4) Theoretisches / empirisches Wissen darüber, was Sie modellieren, schränkt das Feld plausibler Modelle ein.
Aber es gibt keinen automatischen Weg, die "richtige" Familie zu finden. reale Daten können aus so komplizierten Distributionen stammen, wie Sie möchten, und die Komplexität der Modelle, deren Anpassung sich lohnt, steigt mit der Datenmenge, über die Sie verfügen. Dies ist Teil von Box 'Grundsatz, dass keine Modelle stimmen, aber einige nützlich sind.
Kommentar von Re @ gung: Es scheint, dass der häufig verwendete Hosmer-Lemeshow-Test (a) überraschend empfindlich auf die Auswahl von Behältern reagiert und (b) im Allgemeinen weniger leistungsfähig ist als einige andere Tests gegen einige relevante Klassen alternativer Hypothesen. Das schadet Punkt (1) nicht: Es ist auch gut, auf dem Laufenden zu sein.
quelle
Möglicherweise ist es interessant, die Vignette (Einführungshandbuch) für das R-Paket zu lesen
fitdistrplus
. Ich erkenne, dass Sie es vorziehen, in Stata zu arbeiten, aber ich denke, die Vignette wird so selbsterklärend sein, dass Sie einige Einblicke in den Prozess erhalten, aus Daten auf Verteilungsfamilien zu schließen. Sie werden wahrscheinlich in der Lage sein, einige der Ideen in Stata über Ihren eigenen Code umzusetzen. Insbesondere denke ich, dass das Cullen- und Frey-Diagramm, wenn es in Stata implementiert ist / werden könnte, für Sie hilfreich sein kann.quelle