Transformieren extrem verzerrter Verteilungen

13

Angenommen, ich habe eine Variable, deren Verteilung zu einem sehr hohen Grad positiv verzerrt ist, so dass das Aufnehmen des Protokolls nicht ausreicht, um es in den Bereich der Verzerrung für eine Normalverteilung zu bringen. Welche Möglichkeiten habe ich derzeit? Was kann ich tun, um die Variable in eine Normalverteilung umzuwandeln?

Histelheim
quelle
2
Nur um sicherzugehen, bedeutet "schiefes Negativ", dass der lange Schwanz nach links oder rechts zeigt? Wenn es wirklich negativ verzerrt ist (langer Schwanz links), würde die Protokolltransformation nicht sehr gut funktionieren.
Penguin_Knight
6
Die reziproke Transformation ist stärker als die logarithmische und behält oft ihre Bedeutung, da die Maßeinheiten nur invertiert werden. Zum Beispiel ist der Kehrwert der Zeit, um etwas zu tun, eine Art Geschwindigkeit und umgekehrt. Der Kehrwert von Meilen pro Gallone oder Kilometer pro Liter ist sinnvoll. Umkehrungen kehren die Reihenfolge um und können negiert werden, wenn dies vorzuziehen ist. Sie sind natürlich Teil des Box-Cox-Schemas mit diesem zusätzlichen Detail. Alle Werte sollten positiv sein, damit dies gut funktioniert. (Im Prinzip würde es mit allen negativen Werten funktionieren, aber ich habe noch kein Beispiel in der Praxis gesehen.)
Nick Cox
2
@Aksakal Ich kann es nicht als gute Idee ansehen. Das Ergebnis ist statistisch nur für Werte > 1 aussagekräftig . Wenn Werte gezählt werden, ist es künstlich, dass eine Transformation für 0s oder 1s undefiniert ist, unabhängig davon, ob diese Werte in den Daten vorkommen. Wenn es sich bei Werten um Messungen handelt, bedeutet die Einschränkung, dass die Gültigkeit einer Transformation von der Wahl der Maßeinheiten abhängt, was absurd ist, als ob ln ( ln ( 0.7 ) ) nicht möglich wäre, weil ich cm verwende, aber ln ( ln ( 7 ) )ln(ln())>1ln(ln(0.7))ln(ln(7))kann gemacht werden, weil ich mm benutze. (Dass Logarithmen komplexe Ergebnisse für negative Argumente liefern, halte ich statistisch nicht für hilfreich.)
Nick Cox
2
@Aksakal Zu stark, um zu sagen, dass "Protokolltransformation kein Werkzeug ist, um die Schiefe zu heilen": Wenn die Schiefe das einzige Problem ist, funktionieren Protokolle häufig sehr gut. Wenn Sie meinen, dass die Schiefe der Randverteilungen kein großes Problem sein muss, stimme ich eher zu.
Nick Cox
3
Ich stimme natürlich zu, aber wenn ich Quadrate oder Logarithmen verwenden würde, würde ich mich nicht verpflichtet fühlen, Referenzen anzubieten, und ähnlich hier. Die Nützlichkeit von Hin- und Herbewegungen, insbesondere Zeiten und Geschwindigkeiten, wurde jedoch von (z. B.) Tukey, JW 1977, betont. Explorative Datenanalyse. Reading, MA: Addison-Wesley und in mehreren seiner Papiere. Meilen pro Gallone und Gallonen pro Meile (oder umgekehrt Liter pro Kilometer und Kilometer pro Liter) sind bei Diskussionen über die Leistungsdaten von Autos weit verbreitet. Dichten und ihre Kehrwerte sind in der Geographie und Demographie ziemlich übliche Beispiele.
Nick Cox

Antworten:

13

λ

Es ist sehr einfach, es mit der LL-Funktion zu implementieren, oder wenn Sie ein stat-Paket wie SAS oder MATLAB haben, verwenden Sie deren Befehle: Es ist der Befehl boxcox in MATLAB und PROC TRANSREG in SAS.

Auch in R befindet sich dies im MASS-Paket, function boxcox ().

Aksakal
quelle
5

Bei positivem Versatz (Schweif befindet sich am positiven Ende der x-Achse) gibt es die Quadratwurzeltransformation, die logarithmische Transformation und die inverse / reziproke Transformation (in der Reihenfolge der zunehmenden Schwere). Wenn die Protokolltransformation nicht ausreicht, können Sie die nächste Transformationsebene verwenden. Box Cox führt alle Transformationen automatisch durch, sodass Sie die beste auswählen können.

Sarah Thomas
quelle
-5

Die meisten Softwarepakete verwenden die Euler-Nummer als Standardprotokollbasis, AKA: natürliches Protokoll. Sie können eine höhere Basisnummer verwenden, um zu stark nach rechts gerichtete Daten zu bereinigen. Wie Sie dies syntaktisch tun, hängt von der von Ihnen verwendeten Software ab.

Wenn Sie die transformierten Werte nach der Schätzung wieder verlassen müssen, ist die Verwendung dieser Methode möglicherweise etwas einfacher, da Sie lediglich einen Exponentialoperator für Ihre Variable mit einer beliebigen Protokollbasis ausführen müssen.

Matthew Brooks
quelle
6
e