Ist es falsch, Liniendiagramme für diskrete Daten zu verwenden?

12

Ich habe oft diskrete Datensätze als Liniendiagramme gesehen, aber mir ist aufgefallen, dass die Linie an einem Punkt zwischen den Messintervallen einen Wert ableitet, der für diskrete Datensätze bedeutungslos ist. Ist es deshalb so, dass die Verwendung von Liniendiagrammen für diskrete Daten falsch ist?

Nehmen Sie als Beispiel zwei Zeitreihendatensätze, einen kontinuierlichen (mein Gewicht, täglich morgens gemessen) und einen diskreten (die Anzahl der Donuts, die ich pro Tag esse). Es ist sinnvoll, dass der erste Datensatz ein Liniendiagramm ist, da davon ausgegangen werden kann, dass mein Gewicht an einem bestimmten Nachmittag mit meinem Gewicht am vorhergehenden und am folgenden Morgen zusammenhängt. Wenn die Anzahl der Doughnuts jedoch als Liniendiagramm dargestellt wird, kann aus den Linien zwischen den Punkten keine Bedeutung abgeleitet werden.

BEARBEITEN

Hier ist ein weiteres Beispiel: Die Darstellung des föderalen Mindestlohns seit seiner Einführung unter http://mste.illinois.edu/courses/ci330ms/youtsey/lineinfo.html

Wenn ich mich nicht irre, sind die Änderungen des Mindestlohns diskret, und daher ist es nicht möglich, eine willkürlich gewählte Zeit nachzuschlagen und den Mindestlohn an dem Punkt unter Verwendung der Verbindungslinie zwischen den Punkten festzulegen.

user1379351
quelle
3
(+1) Das Beispiel für den stündlichen Mindestlohn ist ausgezeichnet. Die Formulierung Ihrer Frage liefert eine gute Antwort: Die Verbindungspunkte in einem Diagramm sind nicht gültig, wenn der Leser dadurch ungenaue (oder insgesamt ungültige) Interpolationen vornimmt. Eine Unterscheidung zwischen Diskriminanz und Diskontinuität würde bei der weiteren Analyse helfen: Der Donut-Verbrauch ist diskret, während der Mindestlohn diskontinuierlich ist. Jeder verdient eine andere Form der Handlung.
whuber
Es gibt Diagramme, bei denen ein Streudiagramm mit diskreten Daten über ein Liniendiagramm irreführend ist. In einigen Fällen, in denen eine Abfolge von Ereignissen erforderlich ist (Hysterese) oder Oszillationen zwischen zwei Ebenen auftreten und man die Zustandsänderungen und deren Position aufspüren muss. Also: Verwenden Sie keine Liniendiagramme, um Interpolation zu implizieren, sondern verwenden Sie sie gegebenenfalls als Richtlinie. Es ist nicht einfach genug, eine einfache Auswahlregel zu erstellen, sondern erfordert die Berücksichtigung der Daten und des Modells.
Wirrbel
1
Interessante Frage! Dank dafür. Ich habe es mit vielen zeitbezogenen Daten zu tun, die teilweise aus diskreten Modellen und teilweise aus gemessenen Daten stammen. Was ist mit der Option, gestufte Liniendiagramme für diskrete Daten (die in gewisser Weise fortlaufend sein können, aber immer noch keine Funktion zwischen den einzelnen Punkten haben und nicht einfach davon ausgehen können, dass sie einen haben) und reguläre Diagramme für fortlaufende Daten zu verwenden? So
gehe
@CordKaldemeyer danke für den Kommentar - mir war der Diagrammtyp "Stufenliniendiagramm" nicht bekannt, aber das ist definitiv das, wonach ich suche. Ich fand auch dieses hilfreiche Tutorial zum Erstellen von
user1379351
@ user1379351: Bin froh, dass ich helfen konnte!
Cord Kaldemeyer

Antworten:

9

Darstellungen verbundener Linien haben sich als zu nützlich erwiesen, um sich auf eine einzige Interpretation zu beschränken. Einige prominente Anwendungen:

  • Interpolierte Werte . Der von Ihnen erwähnte Fall, dass beide Variablen stetig sind und jeder interpolierte Punkt entlang der Linie eine sinnvolle Interpretation darstellt.
  • Änderungsrate . Auch wenn die Zwischenwerte nicht aussagekräftig sind, ist die Steigung jedes Liniensegments eine gute Darstellung der Änderungsrate. Beachten Sie, dass für diese Interpretation die X- und Y-Werte in angemessenem Abstand zueinander stehen müssen, was in der von Ihnen angegebenen Lohnkurve nicht der Fall ist.
  • Profilvergleich . Wenn Sie kleine Vielfache oder überlagerte Kennzahlen vergleichen, können Linien auch für kategoriale Faktoren nützlich sein. In diesem Fall dienen die Linien dazu, Gruppen von Antworten für eine begrenzte Mustererkennung zu verbinden. Hier ist ein Beispiel von peltiertech.com mit dem Faktor auf der Y-Achse (anstelle der X-Achse) für die Lesbarkeit der Etiketten:

Bildbeschreibung hier eingeben

xan
quelle
1
Es ist wahr, aber die 2. und 3. Grafik sind weniger leistungsfähig als die erste, da man die Analysis überhaupt nicht verwenden kann.
Milind R
5

Nun, die Donuts könnten mit dem Gewicht zusammenhängen :-)

Obwohl ich Ihren Punkt sehe, denke ich, dass dieses Beispiel nicht so schlecht ist, weil die Zeit (auf der horizontalen Achse, auf die sich die Linien beziehen) stetig ist. Die Bedeutung der Linie ist für mich nicht so sehr, dass Sie zu jeder Tageszeit eine bestimmte Anzahl von Donuts gegessen haben, sondern dass sich die Anzahl der Donuts pro Tag regelmäßig ändert. So könnten wir der Linie so etwas wie einen Lößglätter hinzufügen, und es würde Sinn machen. Es ist zumindest vernünftig, an Donuts zu denken, die zu jeder Stunde oder sogar in jeder Minute gegessen werden (obwohl dies bei einer Variablen mit einer höheren Anzahl pro Tag sinnvoller wäre).

Noch besorgniserregender ist es, wenn die horizontale Achse diskret ist (und insbesondere wenn sie nominal ist), aber Linien gezeichnet werden. Das macht wirklich keinen Sinn. Wenn Sie sich zum Beispiel die prozentuale Wahlbeteiligung von (etwa) Einwohnern verschiedener Regionen der USA für Obama ansehen, ist es nicht sinnvoll, eine Grenze zwischen Nordosten und Mittlerem Westen zu ziehen. zumal die Reihenfolge der Regionen willkürlich ist, eine Änderung der Reihenfolge jedoch die Zeilen verändern würde. Trotzdem habe ich solche Grafiken gesehen.

Peter Flom - Wiedereinsetzung von Monica
quelle
1
Stimmen Sie absolut zu, dass es viel schlimmeren Missbrauch von Liniendiagrammen gibt. Ich mag den glatteren Ansatz, da er die Punkte nicht verbindet und daher keine Daten impliziert, die nicht vorhanden sind. Dies unterstreicht jedoch den besorgniserregenden Trend beim Donutkonsum. Vielen Dank!
user1379351
3
Sie scheinen vorzuschlagen, eine Variable - den Donut-Verbrauch - durch eine andere zu ersetzen. nämlich eine Donut Verbrauch Dichte (Krapfen pro Zeiteinheit). Obwohl dies häufig geschieht - insbesondere bei zweidimensionalen Analysen (wie z. B. Karten der Bevölkerungsdichte) - und sehr effektiv sein kann, ist es für den Leser gut, sich bewusst zu sein, dass es eine Unterscheidung gibt, und zu überlegen, wie diese Unterscheidung erfolgen könnte grafisch aufgedeckt werden.
whuber
2
@whuber Das ist ein fairer Punkt; die Linie scheint diesen Ersatz zu machen. Ein Diagramm, das diesen Ersatz nicht herstellt, kann nur Punkte sein, die nicht verbunden sind, aber es scheint zumindest einen Hinweis darauf zu geben, dass sich der Donut-Verbrauch an einem bestimmten Punkt befindet. Wir könnten also die Zeit als kontinuierlich darstellen und einen Punkt in dem Moment setzen, in dem ein Donut konsumiert wurde.
Peter Flom - Reinstate Monica