Ich protokolliere transformiert meine abhängige Variable. Kann ich die GLM-Normalverteilung mit LOG-Link-Funktion verwenden?

10

Ich habe eine Frage zu Generalized Linear Models (GLM). Meine abhängige Variable (DV) ist stetig und nicht normal. Also habe ich es transformiert (immer noch nicht normal, aber verbessert).

Ich möchte den DV mit zwei kategorialen Variablen und einer kontinuierlichen Kovariable in Beziehung setzen. Dafür möchte ich ein GLM durchführen (ich verwende SPSS), bin mir aber nicht sicher, wie ich mich für die Verteilung und Funktion entscheiden soll.

Ich habe den nichtparametrischen Test von Levene durchgeführt und habe eine Homogenität der Varianzen, so dass ich dazu neige, die Normalverteilung zu verwenden. Ich habe gelesen, dass für die lineare Regression die Daten nicht normal sein müssen, sondern die Residuen. Daher habe ich die standardisierten Pearson-Residuen und vorhergesagten Werte für den linearen Prädiktor von jedem GLM einzeln gedruckt (normale GLM-Identitätsfunktion und normale Protokollfunktion). Ich habe Normalitätstests (Histogramm und Shapiro-Wilk) durchgeführt und Residuen gegen vorhergesagte Werte (zur Überprüfung auf Zufälligkeit und Varianz) für beide einzeln aufgetragen. Residuen aus der Identitätsfunktion sind nicht normal, aber Residuen aus der Protokollfunktion sind normal. Ich bin geneigt, normal mit Log-Link-Funktion zu wählen, da die Pearson-Residuen normal verteilt sind.

Meine Fragen sind also:

  • Kann ich die GLM-Normalverteilung mit LOG-Verbindungsfunktion auf einem DV verwenden, der bereits protokolltransformiert wurde?
  • Reicht der Varianzhomogenitätstest aus, um die Verwendung der Normalverteilung zu rechtfertigen?
  • Ist das Restprüfverfahren korrekt, um die Auswahl des Verbindungsfunktionsmodells zu rechtfertigen?

Bild der DV-Verteilung links und Residuen der GLM-Normalen mit Log-Link-Funktion rechts.

DV-Verteilung links und Residuen von der GLM-Normalen rechts

Wissenschaftler
quelle
Es ist nicht ganz klar, was Sie damit meinen: " Also habe ich die Pearson-Residuen von GLM mit der normalen Identitätsfunktion und der normalen Protokollfunktion verglichen. "
Glen_b -Reinstate Monica
Danke für deinen Kommentar. Ich meinte, dass ich die Residuen und vorhergesagten Werte von jedem GLM (Identität und Protokoll) einzeln gedruckt und auf Normalität überprüft und standardisierte Pearson-Residuen gegen die vorhergesagten Werte für jedes Modell einzeln aufgetragen habe. Für die Identitätsfunktion sind Residuen nicht normal, während für die Protokollfunktion Residuen normal sind.
Wissenschaftler
Wie zeigt eine grafische Darstellung standardisierter Pearson-Residuen gegen vorhergesagte Werte an, ob die Daten tatsächlich normal sind oder nicht?
Glen_b -State Monica
Ich überprüfte die Normalität, indem ich das Histogramm der Residuen aufzeichnete und Shapiro-Wilk durchführte (P> 0,05 für die Log-Funktion). Dann habe ich Residuen gegen vorhergesagte Werte aufgetragen, um zu sehen, ob sie zufällig verteilt waren, und um die Varianz zu überprüfen. (Entschuldigung, dass ich keine wichtigen Informationen gesagt habe, ist das erste Mal, dass ich etwas
Wissenschaftler
Ich denke, dass "Identitätsfunktion" hier ein Homophonschlupf für "Dichtefunktion" ist.
Nick Cox

Antworten:

7

Kann ich die GLM-Normalverteilung mit LOG-Verbindungsfunktion auf einem DV verwenden, der bereits protokolltransformiert wurde?

Ja; wenn die Annahmen in dieser Größenordnung erfüllt sind

Reicht der Varianzhomogenitätstest aus, um die Verwendung der Normalverteilung zu rechtfertigen?

Warum würde Varianzgleichheit Normalität bedeuten?

Ist das Restprüfverfahren korrekt, um die Auswahl des Verbindungsfunktionsmodells zu rechtfertigen?

Sie sollten sich davor hüten, sowohl Histogramme als auch Anpassungstests zu verwenden, um die Eignung Ihrer Annahmen zu überprüfen:

1) Verwenden Sie das Histogramm nicht zur Beurteilung der Normalität. (Siehe auch hier )

Kurz gesagt, abhängig von etwas so Einfachem wie einer kleinen Änderung Ihrer Binbreitenauswahl oder sogar nur der Position der Bin-Grenze können ganz unterschiedliche Eindrücke von der Form der Daten erhalten werden:

Zwei Histogramme von Residuen

Das sind zwei Histogramme desselben Datensatzes. Die Verwendung mehrerer unterschiedlicher Binbreiten kann hilfreich sein, um festzustellen, ob der Eindruck dafür empfindlich ist.

2) Verwenden Sie keine Anpassungstests, um zu dem Schluss zu gelangen, dass die Annahme der Normalität angemessen ist. Formale Hypothesentests beantworten nicht wirklich die richtige Frage.

siehe zB die Links unter Punkt 2. hier

Über die Varianz, die in einigen Veröffentlichungen unter Verwendung ähnlicher Datensätze erwähnt wurde, "weil Verteilungen homogene Varianzen aufwiesen, wurde ein GLM mit einer Gaußschen Verteilung verwendet". Wenn dies nicht korrekt ist, wie kann ich die Verteilung rechtfertigen oder entscheiden?

Unter normalen Umständen lautet die Frage nicht "Sind meine Fehler (oder bedingte Verteilungen) normal?". - Sie werden es nicht sein, wir müssen es nicht einmal überprüfen. Eine relevantere Frage ist: "Wie stark wirkt sich der Grad der Nichtnormalität, der vorhanden ist, auf meine Schlussfolgerungen aus?"

Ich schlage eine Schätzung der Kerneldichte oder ein normales QQplot vor (Diagramm der Residuen gegen die normalen Scores). Wenn die Verteilung einigermaßen normal aussieht, müssen Sie sich keine Sorgen machen. In der Tat ist , auch wenn es eindeutig nicht-normale es immer noch kann nicht viel aus , je nachdem , was Sie (normale Prognoseintervalle wirklich zu tun , werden auf Normalität verlassen, zum Beispiel, aber viele andere Dinge zu Arbeit bei großen Probengrößen neigen )

Komischerweise wird bei großen Stichproben die Normalität im Allgemeinen immer weniger wichtig (abgesehen von den oben erwähnten PIs), aber Ihre Fähigkeit, Normalität abzulehnen, wird immer größer.

Bearbeiten: Der Punkt über die Gleichheit der Varianz ist, dass sich Ihre Schlussfolgerungen auch bei großen Stichproben wirklich auswirken können. Aber Sie sollten das wahrscheinlich auch nicht durch Hypothesentests beurteilen. Die falsche Varianzannahme ist unabhängig von Ihrer angenommenen Verteilung ein Problem.

Ich habe gelesen, dass die skalierte Abweichung für das Modell bei Np liegen sollte, damit es gut passt, oder?

Wenn Sie ein normales Modell anpassen, verfügt es über einen Skalierungsparameter. In diesem Fall beträgt Ihre skalierte Abweichung etwa Np, auch wenn Ihre Verteilung nicht normal ist.

Ihrer Meinung nach ist die Normalverteilung mit Log-Link eine gute Wahl

Da ich weiterhin nicht weiß, wofür Sie messen oder wofür Sie die Inferenz verwenden, kann ich immer noch nicht beurteilen, ob Sie eine andere Verteilung für das GLM vorschlagen oder wie wichtig Normalität für Ihre Inferenzen sein könnte.

Wenn Ihre anderen Annahmen jedoch ebenfalls vernünftig sind (Linearität und Varianzgleichheit sollten zumindest überprüft und mögliche Abhängigkeitsquellen berücksichtigt werden), würde ich in den meisten Fällen sehr gerne Dinge wie die Verwendung von CIs und die Durchführung von Tests für Koeffizienten oder Kontraste tun - Es gibt nur einen sehr geringen Eindruck von Schiefe in diesen Residuen, was, selbst wenn es sich um einen echten Effekt handelt, keinen wesentlichen Einfluss auf diese Art von Inferenz haben sollte.

Kurz gesagt, es sollte dir gut gehen.

(Während eine andere Verteilungs- und Verknüpfungsfunktion in Bezug auf die Anpassung möglicherweise etwas besser abschneidet, sind sie nur unter eingeschränkten Umständen wahrscheinlich auch sinnvoller.)

Glen_b - Monica neu starten
quelle
Danke noch einmal! Über die Varianz, die in einigen Veröffentlichungen unter Verwendung ähnlicher Datensätze erwähnt wurde, "weil Verteilungen homogene Varianzen aufwiesen, wurde ein GLM mit einer Gaußschen Verteilung verwendet". Wenn dies nicht korrekt ist, wie kann ich die Verteilung rechtfertigen oder entscheiden? In Bezug auf die verbleibende Normalverteilung bedeutet dies, dass dies angemessener ist, oder? Ich habe gelesen, dass die skalierte Abweichung für das Modell bei Np liegen sollte, um eine gute Passform zu erzielen, oder? Der Wert ist für beide GLMs und um Np gleich. Ich habe auch das am besten geeignete Modell im Modell anhand der AIC-Kriterien identifiziert. Ich bin mir nicht sicher, ob du das gemeint hast.
Wissenschaftler
siehe die Diskussion in meinen Änderungen oben
Glen_b -Rate State Monica
Danke @Glen_b für die nette Erklärung. Das Histogramm, das ich auch mit Shapiro-Wilk getestet habe, berücksichtigt das nicht alles? Ich habe QQ aufgetragen und die erwarteten normalen und beobachteten Pearson-Restwerte und die Punkte + - aufgetragen, die zur Linie passen, außer in den Spitzen, wo sie leicht nach oben gehen. Hast du das gemeint? Die Verteilung der Residuen sieht normal aus, also kann ich fortfahren? (auch wenn der protokollierte DV nicht normal ist) (Ich lese immer noch die Links, wollte dies aber fragen)
Wissenschaftler
1
" Weil normale QQ-Diagramme für dieses Modell normal verteilt waren? " ... Ich könnte sagen "QQ-Diagramme von Residuen legen nahe, dass die Annahme der Normalität vernünftig ist" oder "Residuen erscheinen ziemlich nahe an der Normalität". Wenn Ihr Publikum Hypothesentests erwartet, zitieren Sie möglicherweise noch einen (dies ändert jedoch nichts an der Tatsache, dass sie nicht besonders hilfreich sind). " Das Problem mit dem Datensatz ist, dass im Histogramm des DV " ... keine Annahme über die Verteilung des bedingungslosen DV oder einer der IVs besteht.
Glen_b -Reinstate Monica
1
Siehe die zusätzliche Diskussion am Ende meiner Antwort. Entschuldigung, ich habe nicht früher geantwortet, aber ich habe geschlafen. Bei der anderen Frage war der Grund, warum ich gefragt habe, dass die beiden Modelle die meisten ihrer Annahmen teilen, und so ziemlich die gesamte Diskussion ist für diese Frage relevant - auch wenn der DV unterschiedlich ist. Es ist nicht genau die gleiche Situation (und sollte daher eine neue Frage sein), aber diese Frage sollte daraus verknüpft werden, damit Sie im Rahmen dieser Diskussion Fragen stellen können, z. B. ob es andere oder zusätzliche Probleme gibt.
Glen_b -Reinstate Monica