Gibt es eine (stärkere?) Alternative zur Arcsin-Quadratwurzel-Transformation für Prozent- / Proportionsdaten? In dem Datensatz, an dem ich gerade arbeite, bleibt eine ausgeprägte Heteroskedastizität bestehen, nachdem ich diese Transformation angewendet habe, dh die Darstellung der Residuen gegenüber den angepassten Werten ist immer noch sehr rhomboid.
Bearbeitet, um auf Kommentare zu antworten: Die Daten sind Investitionsentscheidungen von experimentellen Teilnehmern, die 0-100% einer Stiftung in Vielfachen von 10% investieren können. Ich habe diese Daten auch mit ordinaler logistischer Regression betrachtet, möchte aber sehen, was ein gültiger glm hervorbringen würde. Außerdem konnte ich sehen, dass die Antwort für die zukünftige Arbeit nützlich ist, da die Quadratwurzel von Arcsin in meinem Bereich als eine Einheitslösung zu gelten scheint und ich keine Alternativen gefunden hatte, die zum Einsatz kamen.
quelle
Antworten:
Sicher. John Tukey beschreibt eine Familie von (zunehmenden, eins-zu-eins) Transformationen in EDA . Es basiert auf diesen Ideen:
In der Lage sein, die Schwänze (in Richtung 0 und 1) zu verlängern, wie durch einen Parameter gesteuert.
Dennoch in der Nähe der Mitte (die ursprünglichen (nicht transformiert) Werte entsprechen1/2 ), die die Umwandlung leichter zu interpretieren macht.
Um den Wieder Ausdruck symmetrisch zu machen etwa1/2. Das heißt, wenn p Wieder ausgedrückt wie f(p) , dann 1−p wird wieder ausgedrückt als −f(p) .
Wenn Sie mit einer Erhöhung der monotonen Funktion beginneng:(0,1)→R differenzierbar in 1/2 können Sie es anpassen , die zweiten und die dritten Kriterien erfüllen: nur definieren
Der Zähler ist explizit symmetrisch (Kriterium(3) ), weil das Vertauschen von p mit 1−p die Subtraktion umkehrt und damit negiert. Um zu sehen , dass (2) erfüllt ist , zur Kenntnis , dass der Nenner genau der Faktor zu machen brauchte , ist f′(1/2)=1. Daran erinnern , dass die Ableitung annähert das lokale Verhalten einer Funktion mit einer linearen Funktion; eine Steigung von 1=1:1 bedeutet dabei, dass f(p)≈p (plus eine Konstante −1/2 ) , wenn p ausreichend nahe ist , um 1/2. Dies ist der Sinn , in dem die ursprünglichen Werte werden als „in der Nähe der Mitte abgestimmt.“
Tukey nennt dies die "gefaltete" Version vong . Seine Familie besteht aus den Potenz- und logarithmischen Transformationen g(p)=pλ wobei wir bei λ=0 g(p)=log(p) .
Schauen wir uns einige Beispiele an. Wennλ = 1 / 2 wir die gefalteten root erhalten, oder "froot" , f( P ) = 1 / 2---√( p-√- 1 - p----√) . Wennλ = 0 , haben wir den gefalteten Logarithmus oder "Flog",f( p ) = ( log( p ) - log( 1 - p ) ) / 4. Offensichtlich ist dies nur ein konstantes Vielfaches derlogit-Transformation,Log( p1 - p) .
In diesem Diagramm , um die blaue Linie entsprichtλ = 1 , wobei die Zwischen rote Linie λ = 1 / 2 , und die extreme grüne Linie λ = 0 . Die gestrichelte goldene Linie ist die Arkussinustransformation, Arcsin( 2 p - 1 ) / 2 = Arcsin( p-√) - Arcsin( 1 / 2---√) . Das "matching" Pisten (Kriterium(2) ) bewirktdass alle die Kurven fallen zusammen inNähep=1/2.
Die nützlichsten Werte des Parametersλ liegen zwischen 1 und 0 . (Sie können den Schwanz noch schwerer mit negativen Werten machen λ , aber diese Anwendung ist selten.) λ = 1 macht gar nichts , außer recenter die Werten ( f( P ) = p - 1 / 2 ). Wenn λ gegen Null schrumpft, werden die Schwänze weiter gegen ± ∞ . Dies erfüllt das Kriterium Nr. 1. Somit können Sie durch Auswahl eines geeigneten Werts von λ die "Stärke" dieses erneuten Ausdrucks in den Schwänzen steuern.
quelle
Eine Möglichkeit zum Einschließen besteht darin, eine indizierte Transformation einzuschließen. Ein allgemeiner Weg ist die Verwendung einer beliebigen symmetrischen (inversen) kumulativen Verteilungsfunktion, so dass und F ( x ) = 1 - F ( - x ) . Ein Beispiel ist die Standardverteilung t der Schüler mit ν Freiheitsgraden. Der Parameter v steuert, wie schnell die transformierte Variable ins Unendliche wandert. Wenn Sie v = 1 setzen , haben Sie die arctan-Transformation:F( 0 ) = 0,5 F( x ) = 1 - F( - x ) ν v v = 1
Dies ist viel extremer als Arkussinus und extremer als Logit-Transformation. Beachten Sie, dass die logit-Transformation mit der t-Verteilung mit grob angenähert werden kann . In gewisser Weise bietet es eine ungefähre Verbindung zwischen logit- und probit- Transformationen ( ν = ∞ ) und eine Erweiterung dieser Transformationen auf extremere Transformationen.ν≈ 8 ν= ∞
Das Problem bei diesen Transformationen ist, dass sie wenn der beobachtete Anteil gleich 1 oder 0 ist . Sie müssen diese also irgendwie verkleinern - der einfachste Weg ist, + 1 "Erfolge" und + 1 "Fehler" hinzuzufügen .± ∞ 1 0 + 1 + 1
quelle