In diesem Artikel mit dem Titel "AUSWAHL VON GENERALISIERTEN LINEAREN MODELLEN FÜR MEDIZINISCHE DATEN" schreiben die Autoren:
In einem verallgemeinerten linearen Modell wird der Mittelwert durch die Verknüpfungsfunktion transformiert, anstatt die Antwort selbst zu transformieren. Die beiden Transformationsmethoden können zu sehr unterschiedlichen Ergebnissen führen. Beispielsweise ist der Mittelwert der logarithmisch transformierten Antworten nicht derselbe wie der Logarithmus der mittleren Antwort . Im Allgemeinen kann Ersteres nicht einfach in eine mittlere Antwort umgewandelt werden. Durch die Transformation des Mittelwerts können die Ergebnisse daher häufig leichter interpretiert werden, insbesondere, wenn die Mittelwertparameter auf der gleichen Skala wie die gemessenen Antworten bleiben.
Es scheint, dass sie die Anpassung eines verallgemeinerten linearen Modells (GLM) mit logarithmischer Verknüpfung anstelle eines linearen Modells (LM) mit logarithmischer transformierter Antwort empfehlen. Ich verstehe die Vorteile dieses Ansatzes nicht und es erscheint mir ziemlich ungewöhnlich.
Meine Antwortvariable sieht log-normal verteilt aus. Ich erhalte mit beiden Ansätzen ähnliche Ergebnisse hinsichtlich der Koeffizienten und ihrer Standardfehler.
Ich frage mich immer noch: Wenn eine Variable eine Log-Normalverteilung hat, ist nicht das Mittel der log-transformierten Variable bevorzugt über das Protokoll der mittleren untransformierten Variable , wie der Mittelwert der natürliche Zusammenfassung einer Normalverteilung ist, und das Protokoll -transformierte Variable ist normalerweise verteilt, während die Variable selbst nicht ist?
Antworten:
Obwohl es den Anschein haben mag, dass der Mittelwert der logarithmisch transformierten Variablen vorzuziehen ist (da auf diese Weise normalerweise logarithmisch normal parametrisiert wird), ist aus praktischer Sicht der Logarithmus des Mittelwerts in der Regel viel nützlicher.
Dies gilt insbesondere dann, wenn Ihr Modell nicht genau richtig ist und um George Box zu zitieren: "Alle Modelle sind falsch, einige sind nützlich."
Angenommen, eine bestimmte Menge ist logarithmisch normal verteilt, sagen wir, der Blutdruck ist hoch (ich bin kein Sanitäter!), Und wir haben zwei Bevölkerungsgruppen, Männer und Frauen. Man könnte die Hypothese aufstellen, dass der durchschnittliche Blutdruck bei Frauen höher ist als bei Männern. Dies entspricht genau der Frage, ob der logarithmische Wert des durchschnittlichen Blutdrucks bei Frauen höher ist als bei Männern. Es ist nicht dasselbe wie zu fragen, ob der Durchschnitt des logarithmischen Blutdrucks bei Frauen höher ist als bei Männern .
Dies macht die Algebra natürlich schrecklich kompliziert, aber es funktioniert immer noch und bedeutet dasselbe.
Bisher haben wir angenommen, dass der Blutdruck tatsächlich logarithmisch normal ist. Wenn die tatsächlichen Verteilungen nicht ganz logarithmisch normal sind, wird die Transformation der Daten (normalerweise) die Situation noch verschlimmern, da wir nicht genau wissen, was unser "mean" -Parameter tatsächlich bedeutet. Das heißt, wir werden nicht wissen, dass diese beiden Gleichungen für Mittelwert und Varianz, die ich oben angegeben habe, korrekt sind. Wenn Sie diese zum Hin- und Herwandeln verwenden, treten zusätzliche Fehler auf.
quelle
Hier sind meine zwei Cent aus einem Kurs für fortgeschrittene Datenanalyse, den ich während des Studiums der Biostatistik absolviert habe (obwohl ich keine anderen Referenzen als die meines Professors habe):
Es läuft darauf hinaus, ob Sie Linearität und Heteroskedastizität (ungleiche Varianzen) in Ihren Daten oder nur Linearität berücksichtigen müssen.
Sie stellt fest, dass die Transformation der Daten sowohl die Linearitäts- als auch die Varianzannahmen eines Modells beeinflusst. Wenn Ihre Residuen beispielsweise Probleme mit beiden aufweisen, können Sie die Daten transformieren, wodurch möglicherweise beide Probleme behoben werden. Die Transformation transformiert die Fehler und damit deren Varianz.
Im Gegensatz dazu wirkt sich die Verwendung der Verknüpfungsfunktion nur auf die Linearitätsannahme aus, nicht auf die Varianz. Das Protokoll wird vom Mittelwert (Erwartungswert) genommen, und somit wird die Varianz der Residuen nicht beeinflusst.
Zusammenfassend schlägt sie vor, die Verknüpfungsfunktion über die Transformation zu verwenden, wenn Sie kein Problem mit nicht konstanter Varianz haben, da Sie in diesem Fall Ihre Varianz nicht ändern möchten (Sie erfüllen bereits die Annahme).
quelle
Wenn die wahre Antwort nicht symmetrisch ist (nicht normal verteilt), sondern die logarithmisch transformierte Antwort normal ist, wird die lineare Regression der transformierten Antwort verwendet und der Exponentenkoeffizient gibt das Verhältnis des geometrischen Mittels an.
Wenn die wahre Antwort symmetrisch ist (wie normal verteilt), aber die Beziehung zwischen erklärendem (X) und Antwort nicht linear ist, sondern der logarithmische Erwartungswert eine lineare Funktion von X ist, wird GLM mit logarithmischer Verknüpfung verwendet und der Exponentenkoeffizient gibt das Verhältnis des arithmetischen Mittels an
quelle