Warum wird die Quadratwurzeltransformation für Zählungsdaten empfohlen?

57

Es wird oft empfohlen, die Quadratwurzel zu ziehen, wenn Sie Daten zählen. (Beispiele auf CV finden @ HarveyMotulsky Antwort hier oder @ whuber Antwort hier .) Auf der anderen Seite, wenn ein allgemeines lineares Modell mit einer Reaktionsvariable passend als Poisson verteilte, ist das Protokoll der kanonische Link . Dies entspricht einer Protokolltransformation Ihrer Antwortdaten (genauer gesagt einer Protokolltransformation von , dem Parameter, der die Antwortverteilung steuert). Somit besteht eine gewisse Spannung zwischen diesen beiden. λ

  • Wie vereinbaren Sie diese (offensichtliche) Diskrepanz?
  • Warum ist die Quadratwurzel besser als der Logarithmus?
gung - Wiedereinsetzung von Monica
quelle

Antworten:

45

Die Quadratwurzel ist für das Poisson annähernd varianzstabilisierend . Es gibt eine Reihe von Variationen der Quadratwurzel, die die Eigenschaften verbessern, z. B. das Hinzufügen von38 bevor die Quadratwurzel gezogen wird, oder das Freeman-Tukey ( - obwohl es oft auch für den Mittelwert angepasst wird).X+X+1

Bildbeschreibung hier eingeben

Die Quadratwurzeltransformation verbessert etwas die Symmetrie - wenn auch nicht so gut wie die Potenz von [1]:23

Bildbeschreibung hier eingeben

Wenn Sie besonders die Normalnähe wünschen (solange der Parameter des Poisson nicht wirklich klein ist) und sich nicht um die Heteroskedastizität kümmern oder diese ausgleichen können, versuchen Sie es mit power.23

Die kanonische Verknüpfung ist im Allgemeinen keine besonders gute Transformation für Poisson- Daten . log Null ist ein besonderes Problem (ein weiteres Problem ist die Heteroskedastizität; Sie können auch Linksschiefheit bekommen, selbst wenn Sie keine Nullen haben). Wenn die kleinsten Werte nicht zu nahe bei 0 liegen, kann dies zur Linearisierung des Mittelwerts hilfreich sein. Es ist eine gute ‚Transformation‘ für die bedingte Bevölkerung Mittelwert eines Poisson in einer Reihe von Zusammenhängen, aber nicht immer von Poisson - Daten. Wenn Sie jedoch transformieren möchten, besteht eine gängige Strategie darin, eine Konstante hinzuzufügen, das Problem zu vermeiden . In diesem Fall sollten wir uns überlegen, welche Konstante hinzugefügt werden soll. Ohne zu weit von der Fragestellung entfernt zu sein, liegen die Werte von zwischeny=log(y+c)0c0.4und funktionieren über einen Bereich von -Werten sehr gut (z. B. in Bezug auf die Abweichung in der Neigungsschätzung) . Normalerweise benutze ich einfach da es einfach ist, wobei Werte um oft nur geringfügig besser sind.0.5μ120.43

Warum Menschen eine Transformation einer anderen (oder keiner) vorziehen - das hängt wirklich davon ab, was sie tun, um dies zu erreichen.

[1]: Diagramme nach Henrik Bengtssons Plots in seinem Handzettel "Generalized Linear Models and Transformed Residuals", siehe hier (siehe erste Folie auf Seite 4). Ich fügte ein wenig Y-Jitter hinzu und ließ die Zeilen weg.

Glen_b
quelle
1
OK, ich habe darüber nachgedacht, was Sie hier eingegeben haben, und hier ist meine Synthese: Die optimalen Transformationen unterscheiden sich in diesen beiden Situationen, b / c was Sie erreichen möchten, unterscheidet sich. Das Quadrat ist besser für die Stabilisierung der Varianz und die Normalisierung der Verteilung. Das Protokoll bildet das Intervall auf , wodurch die Transformation des Mittelwerts in Modellparametern linear erfolgen kann. Das sqrt hat diese Eigenschaft nicht. W / a GLiM ist es egal, dass die Varianz nicht konstant ist, b / c ist die Antwortverteilung auf Poisson eingestellt. Ist das ungefähr richtig? ( - , + ) λ(0,+)(,+)λ
gung - Wiedereinsetzung von Monica
2
Was in den Parametern linear sein wird, hängt vom Modell ab . Es ist durchaus möglich, dass diese Linearität auf der ursprünglichen Skala, der Quadratwurzelskala oder einer anderen Skala liegt. Sogar die - nützliche / wichtige - Eigenschaft "Zuordnungen zur realen Linie" ist nicht nur für die Protokollfunktion gültig. Der Grund, warum die Protokollverknüpfung "natürlich" ist, liegt in der Art und Weise, wie sie den GLM durch eine ausreichende Statistik von . Xy
Glen_b
1
+1 Die Quadratwurzel ist lediglich ein Ausgangspunkt für den Umgang mit Zähldaten. Der Logarithmus ist auch eine gute Wahl. Anhand der Daten können Sie oft ersehen, welche Person erfolgreicher ist, um eine nützliche und prägnante Beschreibung zu erhalten. Gung, in der Antwort , auf die Sie sich beziehen, liegt der Beweis, dass die Quadratwurzel eine gute Wahl war, in der symmetrischen Verteilung der nicht-äußeren Residuen, die in der Abbildung auf der rechten Seite zu sehen sind. Wenn Sie die Parameter der Simulation variieren, stellen Sie fest, dass die Symmetrie erhalten bleibt.
whuber
1
@ Glen Ich habe nicht gesagt, dass Protokolle immer eine gute Wahl sind. Aber manchmal sind sie Wurzeln überlegen. Wenn Nullzählungen angezeigt werden, benötigen Sie einen "gestarteten" Logarithmus . In anderen Threads wurden Möglichkeiten zum Abrufen eines Startwerts erläutert . Wenn die Daten keine Nullen enthalten, gibt es überhaupt keine Probleme mit Protokollen.
whuber
2
@Tomas Warum Freeman-Tukey oder 3/8 und nicht oder für ein anderes , gibt es gute Gründe für Freeman-Tukey und (zum Beispiel, um die Schiefe näher an 0 zu bringen), aber wenn Sie sich mit diesen im Detail befassen möchten, wäre das eine ganz neue Frage. x+3/8x cx+ccx+3/8
Glen_b