Bei der Analyse von Testergebnissen (z. B. in der Pädagogik oder Psychologie) gehen gängige Analysetechniken häufig davon aus, dass die Daten normal verteilt sind. Vielleicht meistens jedoch weichen die Punktzahlen manchmal stark vom Normalwert ab.
Ich kenne einige grundlegende normalisierende Transformationen wie Quadratwurzeln, Logarithmen, reziproke Transformationen zum Reduzieren des positiven Versatzes, reflektierte Versionen des Obigen zum Reduzieren des negativen Versatzes, Quadrieren für leptokurtische Verteilungen. Ich habe von Arcsine-Transformationen und Power-Transformationen gehört, obwohl ich nicht wirklich über sie Bescheid weiß.
Ich bin also gespannt, welche anderen Transformationen von Analysten häufig verwendet werden.
Der erste Schritt sollte darin bestehen, zu fragen, warum Ihre Variablen nicht normal verteilt sind. Dies kann aufleuchten. Gemeinsame Erkenntnisse aus meiner Erfahrung:
Dieser erste Schritt kann Konstruktionsänderungen am Test vorschlagen. Wenn Sie sich dieser Probleme im Voraus bewusst sind, können Sie Ihren Test sogar so gestalten, dass sie vermieden werden, wenn Sie sie als problematisch ansehen.
Der zweite Schritt besteht darin, zu entscheiden, was in einer Situation zu tun ist, in der Sie nicht normale Daten haben. Notentransformationen sind nur eine mögliche Strategie. Ich möchte den allgemeinen Rat einer früheren Antwort in Bezug auf Nichtnormalität wiederholen :
quelle
John Tukey diskutiert in seinem Buch über EDA systematisch Transformationen. Zusätzlich zur Box-Cox-Familie (affin skalierte Leistungstransformationen) definiert er eine Familie von "gefalteten" Transformationen für Proportionen (im Wesentlichen Potenzen von x / (1-x)) und "gestartete" Zählungen (Hinzufügen eines positiven Versatzes zu gezählten Daten) bevor sie transformiert werden). Die gefalteten Transformationen, die das Logit im Wesentlichen verallgemeinern, sind besonders nützlich für Testergebnisse.
Ganz anders gesagt bieten Johnson & Kotz in ihren Büchern über Verteilungen viele Transformationen an, mit denen Teststatistiken in ungefähre Normalität (oder in eine andere Zielverteilung) umgewandelt werden sollen, beispielsweise die Kubikwurzel-Transformation für Chi-Quadrat. Dieses Material ist eine großartige Quelle für Ideen für nützliche Transformationen, wenn Sie davon ausgehen, dass Ihre Daten einer bestimmten Verteilung folgen.
quelle
Eine einfache Option besteht darin, anstelle der Ergebnisse selbst Punktesummen zu verwenden. Die Summe der Verteilungen tendiert zur Normalität. In Bildung können Sie beispielsweise die Punktzahlen eines Schülers über eine Reihe von Tests hinzufügen.
Eine andere Möglichkeit besteht natürlich darin, Techniken zu verwenden, die keine Normalität voraussetzen und die unterschätzt und nicht ausreichend genutzt werden.
quelle
Für verzerrte und schwere Daten verwende (und entwickle) ich das Lambert W x F-Verteilungsframework. Schräge und schwerfällige Lambert W x F-Verteilungen basieren auf einer nichtlinearen Transformation einer Eingangszufallsvariablen (RV) zur Ausgabe von , die X ähnlich ist, jedoch verzerrt und / oder Heavy Tailed (siehe Papiere für detaillierte Formeln).Y L a m b e r t W × F.X∼F Y LambertW×F
Dies funktioniert im Allgemeinen für jedes kontinuierliche Wohnmobil, aber in der Praxis interessieren wir uns hauptsächlich für Gaußsches . Für schwerfällige Lambert W x F-Verteilungen ist die Umkehrung bijektiv und kann aus den Daten unter Verwendung Ihres bevorzugten Schätzers für den Parameter (MLE, Methoden der Momente, Bayesianische Analyse, ...). Wenn und X Gauß'sch sind, reduziert es sich auf Tukeys h-Verteilung.θ = ( μ x , σ x , δ , α ) α ≡ 1X∼N(μ,σ2) θ=(μx,σx,δ,α) α≡1
Als Datentransformation wird dies nun interessant, da die Transformation bijektiv ist (fast bijektiv für einen verzerrten Fall) und explizit unter Verwendung der Lambertschen W- Funktion (daher der Name Lambert W x F) erhalten werden kann. Dies bedeutet, dass wir die Schiefe aus den Daten entfernen und auch schwere Schwänze entfernen können (bijektiv!).
Sie können es mit dem LambertW R-Paket ausprobieren. Das Handbuch enthält viele Beispiele für die Verwendung.
Für Anwendungen siehe diese Beiträge
quelle