Verbinden der Punkte in einem Diagramm

8

Mit einem Diagramm, das das Produkt einer Gleichung ist, können wir alle Punkte, die die Gleichung lösen, und folglich auch eine Linie, die durch die Punkte verläuft, sinnvoll berechnen. Die Linie an jedem ihrer Punkte ist die Antwort.

Aber was ist mit Maßnahmen wie "Anzahl der Autos pro Stunde / Parkplatz". Ist es sinnvoll, die Punkte jeder stündlichen Messung zu verbinden? Würde dies nicht zu falschen oder zumindest irreführenden Ergebnissen führen, da wir nicht wissen, wie viele Autos in der Zwischenzeit dort waren?

data-visualization Quora Feans
quelle

8

Es gibt verschiedene Gründe, die Punkte in einem Diagramm zu verbinden. Wenn Sie nur eine Wertekategorie anzeigen (dh wenn es eine Linie gibt, gibt es nur eine), ist es im Allgemeinen gut, die Regel von kontinuierlich gegenüber diskret einzuhalten. Es können jedoch auch diskrete oder kategoriale Werte verbunden werden, wenn möglicherweise mehrere Linien erforderlich sind, um die Verfolgung von Mustervariationen entlang der x-Achse zu vereinfachen. Es geht darum, eine zusammenhängende Geschichte zu erstellen. Wenn eine Linie die Geschichte sinnvoller oder leichter verständlich macht, fügen Sie sie hinzu. Wenn es ablenkt, entfernen Sie es.

In Ihrem Fall ein Diagramm mit einem Punkt für jedes Los und Stunden auf der x-Achse. Ich wäre sehr geneigt, Linien zu zeichnen, die die Stunden für jedes Los verbinden. Und während Sie Mittelwerte in Stunden haben, sind die x-Achsenwerte Intervallmessungen und theoretisch stetig (alle stetigen Werte könnten als Intervallmessungen angesehen werden), sodass es dort eine weitere Rechtfertigung gibt.

Wie für Bars, wie andere Poster erwähnt. Ich vermeide sie fast immer. Ein Punkt ist normalerweise sogar für Datentypen besser, von denen normalerweise angenommen wird, dass sie mit Balken gefüllt sind.

Bedenken Sie auch, dass die Anzahl der Autos irreführend ist, wenn die Parkplätze nicht gleich groß sind. Ein Diagramm mit fester Fläche und typischen Balken impliziert, dass jeder Balken die gleiche Füllung von Elementen im Raum gleichermaßen darstellt. Sie lösen dieses Problem nur teilweise mit den Anteilen der Autos in den Losen. Eine Alternative, wenn es nur einen Zeitraum gibt, wäre, leere Balken zu haben, die die Größe der Lose angeben, und sie dann mit der Anzahl der Autos zu füllen. Dies wäre jedoch zu komplex, wenn mehrere Lose demonstriert würden. Liniendiagramme des Füllungsanteils, die über Stunden mit einer Linie für jedes Los verbunden sind, sind hier der beste Weg.

John
quelle

Einverstanden, insbesondere wenn Sie versuchen, zwei oder mehr Datensätze (z. B. drei Parkplätze) im Laufe der Zeit zu vergleichen. Es ist schwierig, die verschiedenen Farbpunkte zu halten und ohne Linien gerade zu tauschen. Es ist normalerweise ziemlich klar, dass wenn ein Liniendiagramm eine Linie ist, die Punkte verbindet, die Punkte diskret sind und wenn es nur eine Linie ist, es kontinuierliche Daten widerspiegelt.

Wayne

Einverstanden, dass Linien helfen, separate Sätze zu unterscheiden; Ich habe diesen Punkt in meiner Antwort demonstriert.

Nick Stauner

1

IMHO, wer zuerst den genauen Zeitpunkt der Änderungen ausgelassen hat, number of carsist der erste, der für irreführende Ergebnisse verantwortlich ist. Wenn Sie diese Informationen hätten (auch wenn sie mit einem Fehler gemessen wurden), timewäre dies eine richtige kontinuierliche Variable, nicht unbedingt eine gruppierte kontinuierliche Variable (siehe Anderson, 1984). Sie können Beobachtungen in Gruppen gruppieren, hourwenn Sie dies wirklich möchten. Zu diesem Zeitpunkt übernehmen Sie die Verantwortung für die Ableitung irreführender Ergebnisse. Andernfalls können Sie durch Beibehaltung präziser Ankunftszeiten Ihre number of cars Zeitreihen kontinuierlich kontinuierlich timegenau grafisch darstellen .

Wie auch immer, vorausgesetzt du steckst bei number of carsper festhourIch stimme @John zu, Sie sollten eine Linie ziehen, die Ihre stündlichen Beobachtungen verbindet. Wenn Sie keine Informationen darüber haben, wann jede inkrementelle Änderung stattgefunden hat, ist es ziemlich schwer zu sagen, dass Sie jemanden irreführen, es sei denn, Sie beschreiben die Grenzen der grafischen Informationen nicht. Wenn Sie Ihre stündlichen Daten mit einem einfachen Balkendiagramm ohne Verbindungslinie zwischen den Behältern grafisch darstellen, sind Sie nicht wirklich schuldig, jemanden irrezuführen, wenn Sie nicht behaupten, dass die Änderungen zwischen den stündlichen Beobachtungen genau wie abgebildet zur vollen Stunde erfolgen. alles auf einmal. Wenn jemand etwas falsch versteht (wie es wahrscheinlich bei ausreichend publizierten Statistiken oder Daten der Fall sein wird), werden Sie diese nicht irreführen, insbesondere wenn Sie Ihre Daten und das Erfassungsverfahren ausreichend detailliert beschreiben. So viel sollte nicht schwer zu tun sein.

Angesichts der grundlegenden Klarheit und Gründlichkeit der Daten- und Diagrammbeschreibungen sollte es keinen Nachteil geben, eine Linie zum Verbinden Ihrer Behälter zu zeichnen. Der Vorteil des Verbindens Ihrer Behälter ist in der Tat der Nachteil, den Sie zu denken scheinen: Das Zeichnen dieser Linien ahmt eine halbwegs anständige Gleichung für number of carsals Funktion der kontinuierlichen nach time, obwohl sie auf diskreten stündlichen Beobachtungen basiert. Sie können eine gerade Linie zwischen den Beobachtungen verwenden, um eine ziemlich vernünftige Annahme darzustellen, dass die Änderung linear über jede Beobachtung erfolgt hour, nicht alle auf einmal. Basierend auf einer solchen Annahme kann jeder Leser eine vernünftige Vermutung anstellen, welche minutenach einer bestimmten hourMessung das nächste Auto nach diesem vernünftigen vierstufigen Verfahren ankommt oder abfährt:

number of cars $=1+$ hour
Zeichnen Sie von diesem Punkt aus eine gerade Linie nach unten, um herauszufinden, wo sie die hourAchse schneidet
Messen Sie den distancePunkt dieses Punktes auf der hourAchse vom Punkt der vorherigen Beobachtung aus
distance $\div$ distance between observations $\times60=$ minutehour

Natürlich kann man die Ankunft des nächsten Autos auch auf die genaue Sekunde genau schätzen, und Sie können die Leser nicht davon abhalten, dies zu tun, indem Sie die Linie nicht angeben - das Zeichnen der Linie wird nur zum ersten von fünf Schritten. Wenn also jemand tatsächlich wissen möchte, wie viele Autos in der Zwischenzeit dort waren, kann er das nicht, weil die Informationen nicht verfügbar sind, aber er kann schätzen. Ich stelle mir vor, dass sie dankbar sein werden, wenn Sie ihnen einen Schritt aus dem Prozess machen.

Wenn Sie dies für Ihre Leser mit einfachen, geraden Linien tun, bedeutet dies nur, dass Sie davon ausgehen, dass die Änderung linear zwischen stündlichen Beobachtungen erfolgt, oder genauer gesagt, Ihr Desinteresse an Ungenauigkeiten in dieser Annahme. Ungenauigkeiten sind nicht schwer vorstellbar. Erstens tritt die Änderung notwendigerweise als nichtlineare, null aufgeblasene Funktion von auf time. Es ist nichtlinear, weil das Änderungsereignis ternär ist : Entweder kommt ein Auto an, fährt ab oder auch nicht - Autos kommen nicht in Bruchteilen an oder fahren ab. Es ist auf Null aufgepumpt, weil in den meisten Momenten kein Auto ankommt oder abfährt. Sie können dies umgehen, indem Sie die Linie so behandeln, probabilitydass sie beschreibt, dass Autos in einem bestimmten Moment ankommen oder abfahren, um die nächste ganze Zahl zu erreichen.

Eine weitere Ungenauigkeit der Annahme hinter geraden Linien zwischen stündlichen Beobachtungen bleibt bestehen. Es ist zu erwarten, dass sich die Änderungsrate (in Bezug auf probabilitydie obigen Ausführungen) im Laufe der Zeit reibungsloser ändert, als es Ihre zwischen den Punkten getrennt gezeichneten geraden Linien implizieren. Mathematischer ausgedrückt möchten Sie möglicherweise, dass die Ableitung Ihrer number of cars( hour) -Funktion über hours hinweg stetig ist . Möglicherweise können Sie dies tun, indem Sie Ihren Daten eine Polynomfunktion anpassen. Wenn Ihr Zweck jedoch prädiktiv ist, achten Sie auf eine Überanpassung .

Ein weiterer Vorteil von Linien gegenüber Balken im Histogrammstil (dh ohne Zwischenabstand für benachbarte Werte von hour... geschweige denn Diagrammen mit Balken, die sich nicht "berühren") ergibt sich aus Ihrer polytomen lotVariablen. Sie können Ihre separaten Zeitreihen für jedes Los in demselben Diagramm überlagern, um Vergleiche zu erleichtern. Auf diese Weise können Sie feststellen, ob Ihre lotVariable interessant ist. Hier ist eine Demonstration mit einigen erfundenen Daten:

Ein großes Lob an McCown !

Ich werde nicht einmal versuchen herauszufinden, wie man das kohärent mit Bars macht. Ich überlasse das @ ChristianStade-Schuldt;) Um fair zu sein, ist es noch einfacher, diese Punkte nicht wie vorgeschlagen zu verbinden, aber das Hinzufügen der Linien hilft dabei, die Punkte zu unterscheiden, die getrennten Zeitreihen voneinander entsprechen. Am Ende wird es immer noch ein wenig subjektiv sein, also urteilen Sie selbst:

Ich jedenfalls finde mich ohnehin dabei, die Linien in meinem Kopf zu ziehen. Übrigens, wenn Sie der Meinung sind, dass die Linien in der ersten Abbildung die visuelle Wirkung der exakten Punkte beeinträchtigen, vergessen Sie nicht, dass Sie die Punkte jederzeit vergrößern, ihre Form ändern oder ihre Werte numerisch in einer separaten Tabelle darstellen können .

^{Referenz

Anderson, JA (1984). Regression und geordnete kategoriale Variablen. Zeitschrift der Royal Statistical Society B, 46 , 1–30.}

Nick Stauner
quelle

1

Eine durchgezogene Linie zeigt ein Kontinuum an. Wenn Durchschnittswerte aufgezeichnet werden sollen, würde ich entweder ein Balkendiagramm oder ein Treppenstufen-Diagramm verwenden. Das Zeichnen einzelner Punkte ist ebenfalls möglich, und wenn es um Durchschnittswerte geht, können Sie bei Bedarf wahrscheinlich Standardabweichungsinformationen hinzufügen.

Peter Jansson
quelle

0

Ich würde diese Punkte nicht verbinden, da dies diskrete Werte sind. Abhängig von der Anzahl der Datenpunkte können Sie entweder ein Spalten- / Balkendiagramm oder nur Punkte verwenden.

Christian Stade-Schuldt
quelle

Verbinden der Punkte in einem Diagramm

Antworten: