Proportionsdaten transformieren: Wenn Bögen in Quadratwurzel nicht ausreichen

20

Gibt es eine (stärkere?) Alternative zur Arcsin-Quadratwurzel-Transformation für Prozent- / Proportionsdaten? In dem Datensatz, an dem ich gerade arbeite, bleibt eine ausgeprägte Heteroskedastizität bestehen, nachdem ich diese Transformation angewendet habe, dh die Darstellung der Residuen gegenüber den angepassten Werten ist immer noch sehr rhomboid.

Bearbeitet, um auf Kommentare zu antworten: Die Daten sind Investitionsentscheidungen von experimentellen Teilnehmern, die 0-100% einer Stiftung in Vielfachen von 10% investieren können. Ich habe diese Daten auch mit ordinaler logistischer Regression betrachtet, möchte aber sehen, was ein gültiger glm hervorbringen würde. Außerdem konnte ich sehen, dass die Antwort für die zukünftige Arbeit nützlich ist, da die Quadratwurzel von Arcsin in meinem Bereich als eine Einheitslösung zu gelten scheint und ich keine Alternativen gefunden hatte, die zum Einsatz kamen.

Freya Harrison
quelle
2
Was sind die angepassten Werte von? Was ist dein modell arcsin stabilisiert (ungefähr) die Varianz für das Binomial, aber Sie werden immer noch "Kanten" -Effekte haben, wenn die Proportionen nahe 0 oder 1 sind - weil der normale Teil effektiv abgeschnitten wird.
Wahrscheinlichkeitslogik
1
Lassen Sie mich kurz auf @probabilityislogic eingehen und nachfragen, woher die Daten stammen. Das Problem könnte etwas enthalten, das auf eine andere Transformation hindeutet, oder ein ganz anderes Modell, das angemessener und / oder interpretierbarer sein könnte.
JMS
1
@prob @JMS Warum lassen wir das OP, von dem ich glaube, dass es sich mit Statistiken auskennt, nicht zuerst die Transformationsroute ausprobieren? Wenn das dann nicht funktioniert, wäre es fruchtbar, einen neuen Thread zu beginnen, in dem das Problem weniger eng dargestellt wird. Ihre Kommentare wären in diesem Zusammenhang angemessen.
whuber
1
Es gibt große Probleme mit der Umwandlung der Arcsin-Quadratwurzel, die in dem amüsant betitelten Artikel "Der Arcsin ist asinin" beschrieben wird: Die Analyse der Proportionen in der Ökologie
mkt - Reinstate Monica
1
@mkt Vielen Dank für den Hinweis, dies ist direkt in die Vorlesung über verallgemeinerte lineare Modelle des nächsten Semesters eingeflossen.
Freya Harrison

Antworten:

28

Sicher. John Tukey beschreibt eine Familie von (zunehmenden, eins-zu-eins) Transformationen in EDA . Es basiert auf diesen Ideen:

  1. In der Lage sein, die Schwänze (in Richtung 0 und 1) zu verlängern, wie durch einen Parameter gesteuert.

  2. Dennoch in der Nähe der Mitte (die ursprünglichen (nicht transformiert) Werte entsprechen 1/2 ), die die Umwandlung leichter zu interpretieren macht.

  3. Um den Wieder Ausdruck symmetrisch zu machen etwa 1/2. Das heißt, wenn p Wieder ausgedrückt wie f(p) , dann 1p wird wieder ausgedrückt als f(p) .

Wenn Sie mit einer Erhöhung der monotonen Funktion beginnen g:(0,1)R differenzierbar in 1/2 können Sie es anpassen , die zweiten und die dritten Kriterien erfüllen: nur definieren

f(p)=g(p)g(1p)2g(1/2).

Der Zähler ist explizit symmetrisch (Kriterium (3) ), weil das Vertauschen von p mit 1p die Subtraktion umkehrt und damit negiert. Um zu sehen , dass (2) erfüllt ist , zur Kenntnis , dass der Nenner genau der Faktor zu machen brauchte , ist f(1/2)=1. Daran erinnern , dass die Ableitung annähert das lokale Verhalten einer Funktion mit einer linearen Funktion; eine Steigung von 1=1:1 bedeutet dabei, dass f(p)p(plus eine Konstante 1/2 ) , wenn p ausreichend nahe ist , um 1/2. Dies ist der Sinn , in dem die ursprünglichen Werte werden als „in der Nähe der Mitte abgestimmt.“

Tukey nennt dies die "gefaltete" Version von g . Seine Familie besteht aus den Potenz- und logarithmischen Transformationen g(p)=pλ wobei wir bei λ=0g(p)=log(p) .

Schauen wir uns einige Beispiele an. Wenn λ=1/2 wir die gefalteten root erhalten, oder "froot" , f(p)=1/2(p1p). Wennλ=0, haben wir den gefalteten Logarithmus oder "Flog",f(p)=(log(p)log(1p))/4. Offensichtlich ist dies nur ein konstantes Vielfaches derlogit-Transformation,log(p1p).

Diagramme für Lambda = 1, 1/2, 0 und Arcsin

In diesem Diagramm , um die blaue Linie entspricht λ=1 , wobei die Zwischen rote Linie λ=1/2 , und die extreme grüne Linie λ=0 . Die gestrichelte goldene Linie ist die Arkussinustransformation, Arcsin(2p-1)/2=Arcsin(p)-Arcsin(1/2). Das "matching" Pisten (Kriterium(2)) bewirktdass alle die Kurven fallen zusammen inNähep=1/2.

Die nützlichsten Werte des Parameters λ liegen zwischen 1 und 0 . (Sie können den Schwanz noch schwerer mit negativen Werten machen λ , aber diese Anwendung ist selten.) λ=1 macht gar nichts , außer recenter die Werten ( f(p)=p1/2 ). Wenn λ gegen Null schrumpft, werden die Schwänze weiter gegen ± . Dies erfüllt das Kriterium Nr. 1. Somit können Sie durch Auswahl eines geeigneten Werts von λ die "Stärke" dieses erneuten Ausdrucks in den Schwänzen steuern.

whuber
quelle
whuber, weißt du von irgendeiner R-Funktion, die diese automatisch ausführt?
John
1
@ John Nein, ich weiß nicht, aber es ist einfach genug zu implementieren.
whuber
2
Ich sah es nicht als grundsätzlich schwierig an, aber es wäre schön, wenn es so etwas wie die Boxcox-Transformationen geben würde, die automatisch die beste Auswahl für Lambda ausarbeiten. Ja, nicht schrecklich zu implementieren ...
John
2
Vielen Dank, das ist genau das, wonach ich gesucht habe und das Diagramm ist wirklich hilfreich. Stimmen Sie John auf jeden Fall zu, dass so etwas wie die Boxcox hilfreich wäre, aber das scheint einfach genug zu sein, um es durchzuarbeiten.
Freya Harrison
7

Eine Möglichkeit zum Einschließen besteht darin, eine indizierte Transformation einzuschließen. Ein allgemeiner Weg ist die Verwendung einer beliebigen symmetrischen (inversen) kumulativen Verteilungsfunktion, so dass und F ( x ) = 1 - F ( - x ) . Ein Beispiel ist die Standardverteilung t der Schüler mit ν Freiheitsgraden. Der Parameter v steuert, wie schnell die transformierte Variable ins Unendliche wandert. Wenn Sie v = 1 setzen , haben Sie die arctan-Transformation:F(0)=0.5F(x)=1F(x)νvv=1

x=arctan(π[2p1]2)

Dies ist viel extremer als Arkussinus und extremer als Logit-Transformation. Beachten Sie, dass die logit-Transformation mit der t-Verteilung mit grob angenähert werden kann . In gewisser Weise bietet es eine ungefähre Verbindung zwischen logit- und probit- Transformationen ( ν = ) und eine Erweiterung dieser Transformationen auf extremere Transformationen.ν8ν=

Das Problem bei diesen Transformationen ist, dass sie wenn der beobachtete Anteil gleich 1 oder 0 ist . Sie müssen diese also irgendwie verkleinern - der einfachste Weg ist, + 1 "Erfolge" und + 1 "Fehler" hinzuzufügen .±10+1+1

Wahrscheinlichkeitslogik
quelle
2
Aus verschiedenen Gründen empfiehlt Tukey, die Anzahl um +1/6 zu erhöhen. Beachten Sie, dass diese Antwort ein Sonderfall von Tukeys Faltungsansatz ist, den ich beschrieben habe: Jede CDF mit positivem PDF ist monoton; Wenn Sie eine symmetrische CDF falten, bleibt sie unverändert.
whuber
2
Ich habe mich gefragt, woher Ihre grobe Annäherung kommt. Wie kommen Sie zu ? Ich kann das nicht reproduzieren. Ich akzeptiere , dass die Angleichung muss bei den Extremen bricht p in der Nähe von 0 oder 1 , aber ich finde , dass ν = 5 eine viel bessere Übereinstimmung für die Logit für ist p in der Nähe von 1 / 2 . Optimieren Sie vielleicht ein Maß für eine durchschnittliche Differenz zwischen der CDF von t ν und logit ? ν8p01ν=5p1/2tνlogit
Whuber
2
t8f(x)=ex(1+ex)25
5
@whuber Ein Grund für das Hinzufügen von 1/6 zu den Zählungen ist, dass die resultierende "gestartete" Zählung in etwa dem mittleren posterior entspricht, wobei von einer Binomialverteilung mit Jeffreys ausgegangen wird (ich schreibe hier ein wenig darüber: sumsar.net/blog/2013/09/ a-bayesian-twist-on-tukeys-flogs ). Ich weiß jedoch nicht, ob dies Tukeys Grund war, 1/6 hinzuzufügen. Wissen Sie, was sein Grund gewesen sein könnte?
Rasmus Bååth
4
xxich<xxich=x(xich)
Whuber