Reicht die Visualisierung aus, um Daten zu transformieren?
13
Problem
Ich möchte die Varianz, die durch jeden der 30 Parameter erklärt wird, als Balkendiagramm mit einem anderen Balken für jeden Parameter und die Varianz auf der y-Achse darstellen:
Die Abweichungen sind jedoch stark in Richtung kleiner Werte, einschließlich 0, verzerrt, wie im folgenden Histogramm zu sehen ist:
Wenn ich sie mit transformiere , werden Unterschiede zwischen den kleinen Werten (Histogramm und Balkendiagramm unten) leichter erkennbar:Log( x + 1 )
Dies wurde von einigen ( z. B. John Tukey) als " gestarteter Logarithmus " bezeichnet . (Für einige Beispiele hat Google John Tukey das Protokoll "gestartet" .)
Es ist vollkommen in Ordnung zu benutzen. Es ist sogar zu erwarten, dass Sie einen Startwert ungleich Null verwenden müssen, um die Rundung der abhängigen Variablen zu berücksichtigen. Das Runden der abhängigen Variablen auf die nächste Ganzzahl führt beispielsweise dazu, dass 1/12 von der tatsächlichen Varianz abweicht, was darauf hindeutet, dass ein angemessener Startwert mindestens 1/12 betragen sollte. (Dieser Wert macht mit diesen Daten keine schlechte Arbeit. Wenn Sie andere Werte über 1 verwenden, ändert sich das Bild nicht wesentlich. Es werden nur alle Werte in der Darstellung unten rechts fast gleichmäßig angehoben.)
Es gibt tiefere Gründe, den Logarithmus (oder das gestartete Log) zur Beurteilung der Varianz zu verwenden: Beispielsweise schätzt die Steigung einer Varianzkurve gegenüber dem geschätzten Wert auf einer Log-Log-Skala einen Box-Cox-Parameter zur Stabilisierung der Varianz . Solche Potenzgesetz-Varianzanpassungen an eine verwandte Variable werden häufig beobachtet. (Dies ist eine empirische Aussage, keine theoretische.)
Wenn Ihr Zweck ist zu präsentieren die Varianzen, gehen Sie mit Vorsicht. Viele Zielgruppen (abgesehen von wissenschaftlichen) können einen Logarithmus nicht verstehen, geschweige denn einen begonnenen. Die Verwendung eines Startwerts von mindestens 1 hat den Vorteil, dass er ein wenig einfacher zu erklären und zu interpretieren ist als irgendein anderer Startwert. Überlegen Sie sich, welche Wurzeln die Standardabweichungen sind. Es würde ungefähr so aussehen:
Unabhängig davon, ob Sie die Daten untersuchen, daraus lernen, ein Modell anpassen oder ein Modell evaluieren möchten, sollten Sie nichts daran hindern, angemessene grafische Darstellungen Ihrer Daten und von Daten abgeleiteter Werte zu finden wie diese Abweichungen.
Vielen Dank für die Erklärung und die richtige Terminologie / Referenz. Das Publikum ist Leser einer wissenschaftlichen Zeitschrift und das Thema ist Varianzzerlegung; Das Verständnis des Konzepts einer Protokolltransformation ist eine Grundvoraussetzung, aber ich war mir immer noch nicht sicher, ob diese Präsentation eine weitere Begründung erfordert - Roots sind eine gute Alternative. Vielen Dank.
David LeBauer
3
Es kann vernünftig sein. Die bessere Frage ist, ob 1 die richtige Zahl zum Hinzufügen ist. Was war dein Minimum? Wenn es zu Beginn 1 war, legen Sie ein bestimmtes Intervall zwischen Elementen mit dem Wert 0 und denen mit dem Wert 1 fest. Je nach Untersuchungsbereich ist es möglicherweise sinnvoller, 0,5 oder 1 / e als Versatz zu wählen. Die Umwandlung in eine Protokollskala hat zur Folge, dass Sie jetzt eine Verhältnisskala haben.
Aber die Pläne stören mich. Ich würde fragen, ob ein Modell, das den größten Teil der erklärten Varianz im Schwanz einer schiefen Verteilung aufweist, wünschenswerte statistische Eigenschaften aufweist. Ich denke nicht.
Ich bin nicht sicher, ob es klar ist, aber die Histogramme sind die 30 Varianzwerte, und die Barplots sind die Rohwerte der Varianz, dh var <- c(0,0,1,3,10,100,150), hist(var), barplot(var)ich interpretiere dies so, dass ein paar Parameter den größten Teil der Varianz erklären, nicht den größten der erklärten Varianz liegt im Schwanz. Ist das sinnvoller? Entschuldigung, wenn es unklar war.
Es kann vernünftig sein. Die bessere Frage ist, ob 1 die richtige Zahl zum Hinzufügen ist. Was war dein Minimum? Wenn es zu Beginn 1 war, legen Sie ein bestimmtes Intervall zwischen Elementen mit dem Wert 0 und denen mit dem Wert 1 fest. Je nach Untersuchungsbereich ist es möglicherweise sinnvoller, 0,5 oder 1 / e als Versatz zu wählen. Die Umwandlung in eine Protokollskala hat zur Folge, dass Sie jetzt eine Verhältnisskala haben.
Aber die Pläne stören mich. Ich würde fragen, ob ein Modell, das den größten Teil der erklärten Varianz im Schwanz einer schiefen Verteilung aufweist, wünschenswerte statistische Eigenschaften aufweist. Ich denke nicht.
quelle
var <- c(0,0,1,3,10,100,150), hist(var), barplot(var)
ich interpretiere dies so, dass ein paar Parameter den größten Teil der Varianz erklären, nicht den größten der erklärten Varianz liegt im Schwanz. Ist das sinnvoller? Entschuldigung, wenn es unklar war.