Ich habe gelesen, dass die Verwendung von Protokollskalen für Diagramme / Grafiken unter bestimmten Umständen angemessen ist, wie z. B. die y-Achse in einem Zeitreihendiagramm. Es ist mir jedoch nicht gelungen, eine endgültige Erklärung dafür zu finden, warum dies der Fall ist oder wann dies sonst angebracht wäre. Denken Sie bitte daran, dass ich kein Statistiker bin, sodass ich den Punkt möglicherweise überhaupt nicht verstehe, und wenn dies der Fall ist, würde ich die Ausrichtung auf Abhilfemaßnahmen begrüßen.
57
Antworten:
Dies ist eine sehr interessante Frage, über die zu wenige Menschen nachdenken. Es gibt verschiedene Möglichkeiten, wie eine Protokollskala geeignet sein kann. Das erste und bekannteste ist das von Macro in seinem Kommentar erwähnte: Mit Hilfe von Protokollskalen kann ein großer Bereich angezeigt werden, ohne dass kleine Werte in den unteren Bereich des Diagramms komprimiert werden.
Ein anderer Grund für den Vorzug einer Protokollskalierung liegt in Situationen, in denen die Daten natürlicher geometrisch ausgedrückt werden. Ein Beispiel ist, wenn die Daten die Konzentration eines biologischen Mediators darstellen. Konzentrationen können nicht negativ sein und die Variabilität skaliert fast immer mit dem Mittelwert (dh es gibt heteroskedastische Varianz). Unter Verwendung einer logarithmischen Skala oder äquivalent dazu unter Verwendung der logarithmischen Konzentration als primäres Maß "korrigieren" beide die ungleichmäßige Variabilität und ergeben eine Skala, die an beiden Enden unbegrenzt ist. Die Konzentrationen sind wahrscheinlich logarithmisch normal verteilt, und so ergibt eine logarithmische Skalierung ein sehr bequemes Ergebnis, das wohl "natürlich" ist. In der Pharmakologie verwenden wir weitaus häufiger eine logarithmische Skala für Arzneimittelkonzentrationen.
Ein weiterer wichtiger Grund für eine Protokollskala, an der Sie wahrscheinlich für Zeitreihendaten interessiert sind, liegt in der Fähigkeit einer Protokollskala, Änderungen in Bruchteilen gleichzusetzen. Stellen Sie sich eine Darstellung der langfristigen Performance Ihrer Altersvorsorgeinvestitionen vor. Es sollte ungefähr exponentiell wachsen, da das Interesse von morgen von den heutigen Investitionen abhängt (ungefähr). Selbst wenn die prozentuale Wertentwicklung relativ konstant war, scheint die Grafik der Fonds am rechten Ende am schnellsten gewachsen zu sein. Bei einer logarithmischen Skala wird eine konstante prozentuale Änderung als konstanter vertikaler Abstand angesehen, sodass eine konstante Wachstumsrate als gerade Linie angesehen wird. Das ist oft ein wesentlicher Vorteil.
Ein weiterer, etwas esoterischerer Grund für die Wahl einer logarithmischen Skala liegt in Situationen, in denen Werte angemessen als x oder 1 / x ausgedrückt werden können. Ein Beispiel aus meiner eigenen Forschung ist der Gefäßwiderstand, der sich auch als wechselseitige Gefäßleitfähigkeit sinnvoll ausdrücken lässt. (Unter bestimmten Umständen ist es auch sinnvoll, an den Durchmesser der Blutgefäße zu denken, der sich als Widerstands- oder Leitfähigkeitsstärke skaliert.) Keine dieser Maßnahmen ist realistischer als die andere, und beide sind in Forschungsberichten zu finden. Wenn sie logarithmisch skaliert sind, sind sie einfach das Negative voneinander und die Wahl des einen oder anderen macht keinen wesentlichen Unterschied. (Der Gefäßdurchmesser unterscheidet sich von Widerstand und Leitfähigkeit durch einen konstanten Multiplikator, wenn alle logarithmisch skaliert sind.)
quelle
Einige Beispiele aus der Praxis, die ich als Ergänzung zu @Michael Lews sehr guter Antwort abgeben musste.
Zunächst zeigen die beiden folgenden Zeitreihendiagramme die monatlichen Besucherankünfte in Neuseeland, die bei Statistics New Zealand erhältlich sind . Beide Darstellungen haben ihren Zweck, aber ich finde die mit der vertikalen Achse auf einer logarithmischen Skala für viel mehr Zwecke als die erste spektakulär nützlich. Sie können beispielsweise feststellen, dass die Saisonalität der Ankünfte in etwa proportional zur Skala der Ankünfte bleibt. und Sie können die signifikanten Veränderungen der Wachstumsrate (z. B. während des Zweiten Weltkriegs) sehen, die im ursprünglichen Maßstab nur unsichtbar sind.
Zweitens zeigen die folgenden Darstellungen die gesamten reisebezogenen Ausgaben von Touristen nach Neuseeland im Vergleich zu den Ausgaben, die sie tatsächlich in Neuseeland getätigt haben. Quelle ist die Internationale Besucherumfrage des Wirtschaftsministeriums. Die Differenz sind die Ausgaben vor Reiseantritt, z. B. im Voraus bezahlte Hotels oder Pakete. Das erste Diagramm im Originalmaßstab kann nur für wenige Zwecke verwendet werden, außer für einen sehr groben (aber wichtigen) Eindruck der Daten, die in der linken unteren Ecke gruppiert sind. Die zweite Darstellung opfert einige unmittelbare Interpretierbarkeit, insbesondere für Nicht-Statistiker (aus diesem Grund würde ich jetzt normalerweise eine logarithmische Skala auf den Achsen verwenden, anstatt die Daten zu transformieren und die Skala zeigt den logarithmischen Wert), gibt aber viel mehr visuelle Differenzierung.
Beispielsweise können Sie die wenigen Ausreißer (die sich als Datenbearbeitungsfehler herausstellten) klar erkennen, bei denen die Gesamtausgaben geringer waren als die Ausgaben in Neuseeland. Vielleicht noch wichtiger ist, dass Sie diese Grafik mit verschiedenen Farben oder Facetten verwenden könnten, um zu zeigen, wie verschiedene Marktländer oder Besuchsziele (z. B. Urlaub oder Besuch bei Freunden und Familie) verschiedene Teile des Ausgaben- "Raums" belegen - etwas, das einfach unsichtbar wäre auf den ursprünglichen Achsen.
Das Umwandeln dieses Diagramms in etwas Nützliches würde das Behandeln der Daten mit hoher Dichte beinhalten (z. B. durch Hinzufügen von Transparenz zu den Punkten oder Ersetzen von Punkten durch sechseckige Behälter, die gemäß der Dichte gefärbt sind), aber jede nützliche visuelle Lösung wird mit ziemlicher Sicherheit logarithmische Achsen beinhalten.
bearbeiten / hinzufügen
Ein weiteres Diagramm, um zu veranschaulichen, was ich mit den sechseckigen Behältern gemeint habe. Verwenden Sie Farbe, um die Dichte darzustellen, wenn ein großer Datensatz vorliegt (in diesem Fall etwa 12.000 Befragte bei einer Umfrage zu Rugby-Weltcup-Erfahrungen in Neuseeland). Beachten Sie noch einmal, dass dies ein weiteres Beispiel ist, bei dem ich eine logarithmische Skala für die Ausgaben verwendet habe.
quelle
Eine andere nette Sache bei logarithmischen Skalen ist, dass sie Verhältnisse symmetrisch erscheinen lassen. Zum Beispiel so:
quelle