Express-Antworten in Bezug auf Originaleinheiten in Box-Cox-transformierten Daten

13

Für einige Messungen werden die Ergebnisse einer Analyse auf der transformierten Skala angemessen dargestellt. In den meisten Fällen ist es jedoch wünschenswert, die Ergebnisse auf der ursprünglichen Messskala darzustellen (ansonsten ist Ihre Arbeit mehr oder weniger wertlos).

Beispielsweise tritt bei log-transformierten Daten ein Problem bei der Interpretation auf der ursprünglichen Skala auf, weil der Mittelwert der protokollierten Werte nicht der Mittelwert ist. Die Verwendung des Antilogarithmus der Schätzung des Mittelwerts auf der logarithmischen Skala ergibt keine Schätzung des Mittelwerts auf der ursprünglichen Skala.

Wenn die protokolltransformierten Daten jedoch symmetrische Verteilungen aufweisen, gelten die folgenden Beziehungen (da das Protokoll die Reihenfolge beibehält):

Mean[log(Y)]=Median[log(Y)]=log[Median(Y)]

(Der Antilogarithmus des Mittelwerts der logarithmischen Werte ist der Median der ursprünglichen Maßskala.)

Daher kann ich nur Rückschlüsse auf die Differenz (oder das Verhältnis) der Mediane auf der ursprünglichen Messskala ziehen.

Zwei-Stichproben-T-Tests und Konfidenzintervalle sind am zuverlässigsten, wenn die Populationen ungefähr normal sind und Standardabweichungen aufweisen. Wir könnten daher versucht sein, die Box-CoxTransformation für die Normalitätsannahme zu verwenden (ich denke auch, dass es sich um eine varianzstabilisierende Transformation handelt) ).

Wenn wir jedoch T-Tools auf Box-Coxtransformierte Daten anwenden , erhalten wir Rückschlüsse auf den Unterschied in den Mitteln der transformierten Daten. Wie können wir diese auf der ursprünglichen Messskala interpretieren? (Der Mittelwert der transformierten Werte ist nicht der transformierte Mittelwert). Mit anderen Worten, die inverse Transformation der Schätzung des Mittelwerts auf der transformierten Skala ergibt keine Schätzung des Mittelwerts auf der ursprünglichen Skala.

Kann ich in diesem Fall auch nur auf die Mediane schließen? Gibt es eine Transformation, die es mir ermöglicht, zu den Mitteln (auf der ursprünglichen Skala) zurückzukehren?

Diese Frage wurde zunächst als Kommentar gepostet hier

George Dontas
quelle

Antworten:

11

Wenn Sie Rückschlüsse speziell auf den Mittelwert der ursprünglichen Variablen ziehen möchten, verwenden Sie keine Box-Cox-Transformation. IMO-Box-Cox-Transformationen sind am nützlichsten, wenn die transformierte Variable eine eigene Interpretation hat, und die Box-Cox-Transformation hilft Ihnen nur, den richtigen Maßstab für die Analyse zu finden - dies ist überraschend oft der Fall. Zwei unerwartete Exponenten, die ich auf diese Weise gefunden habe, waren 1/3 (wenn die Antwortvariable das Blasenvolumen war) und -1 (wenn die Antwortvariable Atemzüge pro Minute war).

Die Protokolltransformation ist wahrscheinlich die einzige Ausnahme. Der Mittelwert auf der logarithmischen Skala entspricht dem geometrischen Mittelwert auf der ursprünglichen Skala, bei dem es sich mindestens um eine genau definierte Größe handelt.

Aniko
quelle
Nun, Sie haben auch andere Ausnahmen. -1 entspricht dem harmonischen Mittelwert, ...
kjetil b halvorsen
9

Wenn die Box-Cox-Transformation eine symmetrische Verteilung ergibt, wird der Mittelwert der transformierten Daten in den Median auf der ursprünglichen Skala zurücktransformiert. Dies gilt für alle monotonen Transformationen, einschließlich der Box-Cox-Transformationen, der IHS-Transformationen usw. Rückschlüsse auf die Mittelwerte der transformierten Daten entsprechen also Rückschlüssen auf den Median auf der ursprünglichen Skala.

Warum möchten Sie Rückschlüsse auf die Mittelwerte ziehen, da die ursprünglichen Daten verzerrt waren (oder Sie keine Box-Cox-Transformation verwendet hätten)? Ich hätte gedacht, dass die Arbeit mit Medianen in dieser Situation sinnvoller ist. Ich verstehe nicht, warum dies als "Problem bei der Interpretation auf der ursprünglichen Skala" angesehen wird.

Rob Hyndman
quelle
λ
Vielen Dank. Vielleicht, weil die Stichprobe (aus einer Population, von der ich denke, dass sie einer ungefähr symmetrischen Verteilung folgen sollte) zufällig verzerrt wurde.
George Dontas
4
Ein gutes Beispiel für die Notwendigkeit, Rückschlüsse auf die Mittel zu ziehen, bieten einige Umweltverträglichkeitsprüfungen. Stellen Sie sich zur Vereinfachung vor, Sie wollen Land in einen Park verwandeln. Sie testen die Böden auf eine bedenkliche Verbindung und stellen, wie es häufig der Fall ist, fest, dass ihre Konzentration in etwa normalverteilt ist. Nichtsdestotrotz "beproben" die Parknutzer, die diesen Böden möglicherweise direkt ausgesetzt sind, die Böden während der Bewegung gleichmäßig und zufällig. Ihre Exposition über die Zeit ist das arithmetische Mittel der Konzentration, nicht das geometrische Mittel.
Whuber
1
Manchmal interessieren uns Probleme, die von Formulierungen der Gesamtmenge von etwas herrühren. Wenn Sie den Mittelwert kennen, können Sie vom Mittelwert zur Summe übergehen (multipliziert mit der Anzahl der Beobachtungen). Es gibt keinen Weg vom Median zur Summe!
George Dontas
6

Wenn Sie Rückschlüsse auf Mittelwerte auf der ursprünglichen Skala ziehen möchten, können Sie Rückschlüsse verwenden, bei denen keine Normalitätsannahme verwendet wird.

Passen Sie jedoch auf. Es kann problematisch sein, einen direkten Vergleich der Mittelwerte durch z. B. Resampling (entweder Permutationstests oder Bootstrapping) durchzuführen, wenn die beiden Stichproben unterschiedliche Varianzen aufweisen, wenn Ihre Analyse davon ausgeht, dass die Varianzen gleich sind (und gleiche Varianzen auf der transformierten Skala Differenzvarianzen sind) auf der ursprünglichen Skala, wenn sich die Mittel unterscheiden). Solche Techniken vermeiden nicht die Notwendigkeit, darüber nachzudenken, was Sie tun.

f(x+h)t[μ+(Yμ)]Yμσ2t()

t(μ)

-

Der einfachste Fall ist, wenn Sie Normalität auf der logarithmischen Skala haben und daher eine logarithmische Normalität auf der ursprünglichen Skala. Wenn Ihre Varianz bekannt ist (was bestenfalls sehr selten vorkommt), können Sie logarithmische CIs und PIs auf der ursprünglichen Skala konstruieren und einen vorhergesagten Mittelwert aus dem Mittelwert der Verteilung der relevanten Menge angeben.

tt

Sie müssen sich genau überlegen, welche Frage Sie beantworten möchten.

Glen_b - Setzen Sie Monica wieder ein
quelle