Lineares Modell mit logarithmisch transformierter Antwort vs. verallgemeinertes lineares Modell mit logarithmischer Verknüpfung

46

In diesem Artikel mit dem Titel "AUSWAHL VON GENERALISIERTEN LINEAREN MODELLEN FÜR MEDIZINISCHE DATEN" schreiben die Autoren:

In einem verallgemeinerten linearen Modell wird der Mittelwert durch die Verknüpfungsfunktion transformiert, anstatt die Antwort selbst zu transformieren. Die beiden Transformationsmethoden können zu sehr unterschiedlichen Ergebnissen führen. Beispielsweise ist der Mittelwert der logarithmisch transformierten Antworten nicht derselbe wie der Logarithmus der mittleren Antwort . Im Allgemeinen kann Ersteres nicht einfach in eine mittlere Antwort umgewandelt werden. Durch die Transformation des Mittelwerts können die Ergebnisse daher häufig leichter interpretiert werden, insbesondere, wenn die Mittelwertparameter auf der gleichen Skala wie die gemessenen Antworten bleiben.

Es scheint, dass sie die Anpassung eines verallgemeinerten linearen Modells (GLM) mit logarithmischer Verknüpfung anstelle eines linearen Modells (LM) mit logarithmischer transformierter Antwort empfehlen. Ich verstehe die Vorteile dieses Ansatzes nicht und es erscheint mir ziemlich ungewöhnlich.

Meine Antwortvariable sieht log-normal verteilt aus. Ich erhalte mit beiden Ansätzen ähnliche Ergebnisse hinsichtlich der Koeffizienten und ihrer Standardfehler.

Ich frage mich immer noch: Wenn eine Variable eine Log-Normalverteilung hat, ist nicht das Mittel der log-transformierten Variable bevorzugt über das Protokoll der mittleren untransformierten Variable , wie der Mittelwert der natürliche Zusammenfassung einer Normalverteilung ist, und das Protokoll -transformierte Variable ist normalerweise verteilt, während die Variable selbst nicht ist?

miura
quelle
3
Ich stimme Ihrem Hinweis zu, wenn wir eine logarithmisch normal verteilte Variable haben. Der Mittelwert muss jedoch "zurücktransformiert" werden, um eine leicht verständliche Statistik auf der Grundlage des ursprünglichen Datenumfangs zu erhalten. Dies könnte die Schlussfolgerung des Artikels erklären. Außerdem erhalten wir nach der Protokolltransformation möglicherweise keine normalverteilte Variable, und in diesem Fall weiß ich nicht, welcher Ansatz besser wäre.
Soufanom

Antworten:

46

Obwohl es den Anschein haben mag, dass der Mittelwert der logarithmisch transformierten Variablen vorzuziehen ist (da auf diese Weise normalerweise logarithmisch normal parametrisiert wird), ist aus praktischer Sicht der Logarithmus des Mittelwerts in der Regel viel nützlicher.

Dies gilt insbesondere dann, wenn Ihr Modell nicht genau richtig ist und um George Box zu zitieren: "Alle Modelle sind falsch, einige sind nützlich."

Angenommen, eine bestimmte Menge ist logarithmisch normal verteilt, sagen wir, der Blutdruck ist hoch (ich bin kein Sanitäter!), Und wir haben zwei Bevölkerungsgruppen, Männer und Frauen. Man könnte die Hypothese aufstellen, dass der durchschnittliche Blutdruck bei Frauen höher ist als bei Männern. Dies entspricht genau der Frage, ob der logarithmische Wert des durchschnittlichen Blutdrucks bei Frauen höher ist als bei Männern. Es ist nicht dasselbe wie zu fragen, ob der Durchschnitt des logarithmischen Blutdrucks bei Frauen höher ist als bei Männern .

μln

μ=eμln+σln2/2

σ2=(eσln21)e2μln+σln2

Dies macht die Algebra natürlich schrecklich kompliziert, aber es funktioniert immer noch und bedeutet dasselbe.

ln(μ)σln2μln

μln

Bisher haben wir angenommen, dass der Blutdruck tatsächlich logarithmisch normal ist. Wenn die tatsächlichen Verteilungen nicht ganz logarithmisch normal sind, wird die Transformation der Daten (normalerweise) die Situation noch verschlimmern, da wir nicht genau wissen, was unser "mean" -Parameter tatsächlich bedeutet. Das heißt, wir werden nicht wissen, dass diese beiden Gleichungen für Mittelwert und Varianz, die ich oben angegeben habe, korrekt sind. Wenn Sie diese zum Hin- und Herwandeln verwenden, treten zusätzliche Fehler auf.

Corone
quelle
Ich fand das sehr hilfreich: christoph-scherber.de/content/PDF%20Files/…
Aditya
2
Corone, ich habe in deiner Antwort zwei wichtige Sätze hervorgehoben. Ich hoffe es macht dir nichts aus. Bitte machen Sie einen Rollback, wenn Sie nicht einverstanden sind.
Stefan
17

Hier sind meine zwei Cent aus einem Kurs für fortgeschrittene Datenanalyse, den ich während des Studiums der Biostatistik absolviert habe (obwohl ich keine anderen Referenzen als die meines Professors habe):

Es läuft darauf hinaus, ob Sie Linearität und Heteroskedastizität (ungleiche Varianzen) in Ihren Daten oder nur Linearität berücksichtigen müssen.

Sie stellt fest, dass die Transformation der Daten sowohl die Linearitäts- als auch die Varianzannahmen eines Modells beeinflusst. Wenn Ihre Residuen beispielsweise Probleme mit beiden aufweisen, können Sie die Daten transformieren, wodurch möglicherweise beide Probleme behoben werden. Die Transformation transformiert die Fehler und damit deren Varianz.

Im Gegensatz dazu wirkt sich die Verwendung der Verknüpfungsfunktion nur auf die Linearitätsannahme aus, nicht auf die Varianz. Das Protokoll wird vom Mittelwert (Erwartungswert) genommen, und somit wird die Varianz der Residuen nicht beeinflusst.

Zusammenfassend schlägt sie vor, die Verknüpfungsfunktion über die Transformation zu verwenden, wenn Sie kein Problem mit nicht konstanter Varianz haben, da Sie in diesem Fall Ihre Varianz nicht ändern möchten (Sie erfüllen bereits die Annahme).

Meg
quelle
6
Während die Link-Funktion nur den Mittelwert beeinflusst, ist die Link-Funktion nur ein Teil eines GLM. Ihre Kommentare funktionieren für ein Gaußsches Glm mit Protokolllink. Ein Gamma- GLM mit logarithmischer Verknüpfung hat die gleiche Varianz-Funktionsannahme (Varianz proportional zum mittleren Quadrat) wie das Aufnehmen von Logs und Anpassen einer konstanten Varianz auf dieser logarithmischen Skala. Andere Familien innerhalb des GLM-Frameworks haben andere Varianzfunktionen. Leider sind in der Tabelle auf der Wikipedia-Seite für GLMs die Varianzfunktionen für die angegebenen Verteilungsfamilien nicht aufgeführt.
Glen_b
2
Sie nennen hier jedoch einige Beispiele . Hier ist das Gamma
Glen_b
-1

Wenn die wahre Antwort nicht symmetrisch ist (nicht normal verteilt), sondern die logarithmisch transformierte Antwort normal ist, wird die lineare Regression der transformierten Antwort verwendet und der Exponentenkoeffizient gibt das Verhältnis des geometrischen Mittels an.

Wenn die wahre Antwort symmetrisch ist (wie normal verteilt), aber die Beziehung zwischen erklärendem (X) und Antwort nicht linear ist, sondern der logarithmische Erwartungswert eine lineare Funktion von X ist, wird GLM mit logarithmischer Verknüpfung verwendet und der Exponentenkoeffizient gibt das Verhältnis des arithmetischen Mittels an

Md Ahshanul Haque
quelle
Diese Antwort ist nicht klar. Meinten Sie "variabel" anstatt "wahr"?
Michael Chernick
Dies ist ein Fragment einer Antwort. Sie müssen klarstellen, in welchem ​​Zusammenhang dies mit der Frage steht und wie die Antwort auf die Frage tatsächlich auf dieser Einsicht basiert.
ReneBt