Wann sind Log-Skalen angebracht?

57

Ich habe gelesen, dass die Verwendung von Protokollskalen für Diagramme / Grafiken unter bestimmten Umständen angemessen ist, wie z. B. die y-Achse in einem Zeitreihendiagramm. Es ist mir jedoch nicht gelungen, eine endgültige Erklärung dafür zu finden, warum dies der Fall ist oder wann dies sonst angebracht wäre. Denken Sie bitte daran, dass ich kein Statistiker bin, sodass ich den Punkt möglicherweise überhaupt nicht verstehe, und wenn dies der Fall ist, würde ich die Ausrichtung auf Abhilfemaßnahmen begrüßen.

dav
quelle
10
Dies ist keine formale Antwort, aber - wenn eine Variable mehrere Größenordnungen umfasst, ist es für die Augen oft einfacher (und informativer), sie auf der Log-Skala zu visualisieren.
Makro
Makro-das macht Sinn (vor allem, wenn Sie ein Publikum haben, das es verstehen kann!)
Dav
1
Möglicherweise finden Sie diesen eng verwandten Thread, während Sie auf bestimmte Antworten warten: stats.stackexchange.com/questions/298 . In Bezug auf Diagramme können Sie "abhängige Variable" fruchtbar als "y-Achse" interpretieren. Dann werfen Sie einen Blick auf die vielen eng verwandten Fragen, die hier aufgetaucht sind.
whuber
3
Auch FYI Naomi Robbins hat einen sehr einfachen Artikel zu diesem Thema, der von Interesse sein sollte. Wann sollte ich logarithmische Skalen in meinen Diagrammen und Grafiken verwenden? .
Andy W
Whuber, vielen Dank für den Hinweis auf die zusätzlichen Links. Ich hatte einige davon gesehen, aber nicht alle, und ich arbeite mich jetzt durch sie hindurch.
Dav

Antworten:

51

Dies ist eine sehr interessante Frage, über die zu wenige Menschen nachdenken. Es gibt verschiedene Möglichkeiten, wie eine Protokollskala geeignet sein kann. Das erste und bekannteste ist das von Macro in seinem Kommentar erwähnte: Mit Hilfe von Protokollskalen kann ein großer Bereich angezeigt werden, ohne dass kleine Werte in den unteren Bereich des Diagramms komprimiert werden.

Ein anderer Grund für den Vorzug einer Protokollskalierung liegt in Situationen, in denen die Daten natürlicher geometrisch ausgedrückt werden. Ein Beispiel ist, wenn die Daten die Konzentration eines biologischen Mediators darstellen. Konzentrationen können nicht negativ sein und die Variabilität skaliert fast immer mit dem Mittelwert (dh es gibt heteroskedastische Varianz). Unter Verwendung einer logarithmischen Skala oder äquivalent dazu unter Verwendung der logarithmischen Konzentration als primäres Maß "korrigieren" beide die ungleichmäßige Variabilität und ergeben eine Skala, die an beiden Enden unbegrenzt ist. Die Konzentrationen sind wahrscheinlich logarithmisch normal verteilt, und so ergibt eine logarithmische Skalierung ein sehr bequemes Ergebnis, das wohl "natürlich" ist. In der Pharmakologie verwenden wir weitaus häufiger eine logarithmische Skala für Arzneimittelkonzentrationen.

Ein weiterer wichtiger Grund für eine Protokollskala, an der Sie wahrscheinlich für Zeitreihendaten interessiert sind, liegt in der Fähigkeit einer Protokollskala, Änderungen in Bruchteilen gleichzusetzen. Stellen Sie sich eine Darstellung der langfristigen Performance Ihrer Altersvorsorgeinvestitionen vor. Es sollte ungefähr exponentiell wachsen, da das Interesse von morgen von den heutigen Investitionen abhängt (ungefähr). Selbst wenn die prozentuale Wertentwicklung relativ konstant war, scheint die Grafik der Fonds am rechten Ende am schnellsten gewachsen zu sein. Bei einer logarithmischen Skala wird eine konstante prozentuale Änderung als konstanter vertikaler Abstand angesehen, sodass eine konstante Wachstumsrate als gerade Linie angesehen wird. Das ist oft ein wesentlicher Vorteil.

Ein weiterer, etwas esoterischerer Grund für die Wahl einer logarithmischen Skala liegt in Situationen, in denen Werte angemessen als x oder 1 / x ausgedrückt werden können. Ein Beispiel aus meiner eigenen Forschung ist der Gefäßwiderstand, der sich auch als wechselseitige Gefäßleitfähigkeit sinnvoll ausdrücken lässt. (Unter bestimmten Umständen ist es auch sinnvoll, an den Durchmesser der Blutgefäße zu denken, der sich als Widerstands- oder Leitfähigkeitsstärke skaliert.) Keine dieser Maßnahmen ist realistischer als die andere, und beide sind in Forschungsberichten zu finden. Wenn sie logarithmisch skaliert sind, sind sie einfach das Negative voneinander und die Wahl des einen oder anderen macht keinen wesentlichen Unterschied. (Der Gefäßdurchmesser unterscheidet sich von Widerstand und Leitfähigkeit durch einen konstanten Multiplikator, wenn alle logarithmisch skaliert sind.)

Michael Lew
quelle
Danke für die tolle Antwort! Können Sie jedoch näher erläutern, ob "Werte vernünftigerweise als x ausgedrückt werden können"?
ktdrv
4
@ktdrv Einige Dinge sind in beiden Richtungen sinnvoll. Angenommen, Sie möchten die Fähigkeiten eines Fischers dokumentieren. Sie können die Anzahl der pro Tag gefangenen Fische zählen oder das Intervall zwischen aufeinander folgenden Fängen messen. Beide Messungen sind sinnvoll, aber nicht linear miteinander verbunden. Sie sind skalierte Kehrwerte voneinander und können daher eins zu eins in das andere umgewandelt werden. Das Protokoll des Intervalls und das Protokoll der Anzahl pro Tag sind linear miteinander verknüpft und unterscheiden sich durch einen konstanten (negativen) Faktor.
Michael Lew
1
Michael, danke für die tolle Antwort. Ich muss zugeben, dass ich eine Weile gebraucht habe, um alle Ihre Punkte zu sichten (und einige Begriffe wie "heteroskedastische Varianz" zu googeln). Ich setze immer noch genau zusammen, was die tatsächliche Auswirkung der Antwort auf meine Arbeit bedeuten wird, aber ich bin dankbar für eine allgemeine Anleitung und einige Richtlinien, die mich auf den Weg bringen.
Dav
Zu letzterem Absatz: Zwei Hauptgründe für die Umformulierung von Werten sind die Stabilisierung von Varianzen und die Linearisierung von Beziehungen zu anderen Variablen. Es ist fast immer so, dass wenn funktioniert, schrecklich sein wird und umgekehrt . Daher scheint die Verwendung von da eine lineare Beziehung zwischen und wird, nicht vertretbar zu sein. Wenn dies funktioniert, bedeutet dies, dass weder noch ein effektiver Ausdruck der Werte ist, andernfalls ist dies nicht der Fall Arbeit und Sie sollten bestimmen, welche von oder (oder eine andere Re-Expression) geeignet ist.x1/xlog(x)x1/x x1/xx1/x
whuber
"In der Pharmakologie verwenden wir weitaus häufiger eine logarithmische Skala für Wirkstoffkonzentrationen": Lassen Sie mich betonen, dass die Variablen tatsächlich häufig bereits so definiert sind, z. B. . Das auf natürlichere Weise ausgedrückte Sein bedeutet, dass viele Beziehungen dort viel einfacher (linearer) Ausdruck mit dem Protokoll werden. pH=log[H+]
cbeleites unterstützt Monica am
29

Einige Beispiele aus der Praxis, die ich als Ergänzung zu @Michael Lews sehr guter Antwort abgeben musste.

Zunächst zeigen die beiden folgenden Zeitreihendiagramme die monatlichen Besucherankünfte in Neuseeland, die bei Statistics New Zealand erhältlich sind . Beide Darstellungen haben ihren Zweck, aber ich finde die mit der vertikalen Achse auf einer logarithmischen Skala für viel mehr Zwecke als die erste spektakulär nützlich. Sie können beispielsweise feststellen, dass die Saisonalität der Ankünfte in etwa proportional zur Skala der Ankünfte bleibt. und Sie können die signifikanten Veränderungen der Wachstumsrate (z. B. während des Zweiten Weltkriegs) sehen, die im ursprünglichen Maßstab nur unsichtbar sind.

Bildbeschreibung hier eingeben

Zweitens zeigen die folgenden Darstellungen die gesamten reisebezogenen Ausgaben von Touristen nach Neuseeland im Vergleich zu den Ausgaben, die sie tatsächlich in Neuseeland getätigt haben. Quelle ist die Internationale Besucherumfrage des Wirtschaftsministeriums. Die Differenz sind die Ausgaben vor Reiseantritt, z. B. im Voraus bezahlte Hotels oder Pakete. Das erste Diagramm im Originalmaßstab kann nur für wenige Zwecke verwendet werden, außer für einen sehr groben (aber wichtigen) Eindruck der Daten, die in der linken unteren Ecke gruppiert sind. Die zweite Darstellung opfert einige unmittelbare Interpretierbarkeit, insbesondere für Nicht-Statistiker (aus diesem Grund würde ich jetzt normalerweise eine logarithmische Skala auf den Achsen verwenden, anstatt die Daten zu transformieren und die Skala zeigt den logarithmischen Wert), gibt aber viel mehr visuelle Differenzierung.

Beispielsweise können Sie die wenigen Ausreißer (die sich als Datenbearbeitungsfehler herausstellten) klar erkennen, bei denen die Gesamtausgaben geringer waren als die Ausgaben in Neuseeland. Vielleicht noch wichtiger ist, dass Sie diese Grafik mit verschiedenen Farben oder Facetten verwenden könnten, um zu zeigen, wie verschiedene Marktländer oder Besuchsziele (z. B. Urlaub oder Besuch bei Freunden und Familie) verschiedene Teile des Ausgaben- "Raums" belegen - etwas, das einfach unsichtbar wäre auf den ursprünglichen Achsen.

Das Umwandeln dieses Diagramms in etwas Nützliches würde das Behandeln der Daten mit hoher Dichte beinhalten (z. B. durch Hinzufügen von Transparenz zu den Punkten oder Ersetzen von Punkten durch sechseckige Behälter, die gemäß der Dichte gefärbt sind), aber jede nützliche visuelle Lösung wird mit ziemlicher Sicherheit logarithmische Achsen beinhalten.

Bildbeschreibung hier eingeben

bearbeiten / hinzufügen

Ein weiteres Diagramm, um zu veranschaulichen, was ich mit den sechseckigen Behältern gemeint habe. Verwenden Sie Farbe, um die Dichte darzustellen, wenn ein großer Datensatz vorliegt (in diesem Fall etwa 12.000 Befragte bei einer Umfrage zu Rugby-Weltcup-Erfahrungen in Neuseeland). Beachten Sie noch einmal, dass dies ein weiteres Beispiel ist, bei dem ich eine logarithmische Skala für die Ausgaben verwendet habe.

Bildbeschreibung hier eingeben

Peter Ellis
quelle
Peter, danke für den zusätzlichen Einblick - die Grafiken helfen wirklich dabei, deine Punkte zu verstehen. Eine Folgefrage (wenn Sie so geneigt sind), warum würden Sie Punkte durch "sechseckige" Behälter ersetzen? Ist das die gleiche Idee wie "Sunflower Plots"? Ich habe diesen Begriff noch nie gehört.
Dav
Nein, anders als bei Sonnenblumen. Der Punkt besteht darin, den Zeichenbereich in sechseckige Felder zu unterteilen und sie dann entsprechend der Anzahl der Punkte in jedem Feld zu färben (z. B. von hell nach dunkel). Kann ein guter Weg sein, um das Plotten großer Datenmengen zu umgehen, die sonst dazu neigen, sich nur in eine Masse von Schwarz zu verwandeln.
Peter Ellis
@ DavidVandenbos - Ich habe ein Beispiel hinzugefügt
Peter Ellis
(der Rest des Kommentars) @PeterEllis Danke für die Klarstellung. Das ist eine großartige Möglichkeit, die Daten zu visualisieren - es ähnelt sehr geografischen Wärmekarten, die ich verwende. Haben Sie das in R erstellt?
Dav
Ja, R, mit dem ggplot2-Paket - sehr gut für diesen Zweck und ziemlich einfach, wenn Sie die Grundlagen haben.
Peter Ellis
9

Eine andere nette Sache bei logarithmischen Skalen ist, dass sie Verhältnisse symmetrisch erscheinen lassen. Zum Beispiel so: Bildbeschreibung hier eingeben

miura
quelle
10
Zum Vergleich wäre es schön, die gleiche Handlung auf einer linearen Skala zu sehen
nico