Es gibt verschiedene Gründe, die Punkte in einem Diagramm zu verbinden. Wenn Sie nur eine Wertekategorie anzeigen (dh wenn es eine Linie gibt, gibt es nur eine), ist es im Allgemeinen gut, die Regel von kontinuierlich gegenüber diskret einzuhalten. Es können jedoch auch diskrete oder kategoriale Werte verbunden werden, wenn möglicherweise mehrere Linien erforderlich sind, um die Verfolgung von Mustervariationen entlang der x-Achse zu vereinfachen. Es geht darum, eine zusammenhängende Geschichte zu erstellen. Wenn eine Linie die Geschichte sinnvoller oder leichter verständlich macht, fügen Sie sie hinzu. Wenn es ablenkt, entfernen Sie es.
In Ihrem Fall ein Diagramm mit einem Punkt für jedes Los und Stunden auf der x-Achse. Ich wäre sehr geneigt, Linien zu zeichnen, die die Stunden für jedes Los verbinden. Und während Sie Mittelwerte in Stunden haben, sind die x-Achsenwerte Intervallmessungen und theoretisch stetig (alle stetigen Werte könnten als Intervallmessungen angesehen werden), sodass es dort eine weitere Rechtfertigung gibt.
Wie für Bars, wie andere Poster erwähnt. Ich vermeide sie fast immer. Ein Punkt ist normalerweise sogar für Datentypen besser, von denen normalerweise angenommen wird, dass sie mit Balken gefüllt sind.
Bedenken Sie auch, dass die Anzahl der Autos irreführend ist, wenn die Parkplätze nicht gleich groß sind. Ein Diagramm mit fester Fläche und typischen Balken impliziert, dass jeder Balken die gleiche Füllung von Elementen im Raum gleichermaßen darstellt. Sie lösen dieses Problem nur teilweise mit den Anteilen der Autos in den Losen. Eine Alternative, wenn es nur einen Zeitraum gibt, wäre, leere Balken zu haben, die die Größe der Lose angeben, und sie dann mit der Anzahl der Autos zu füllen. Dies wäre jedoch zu komplex, wenn mehrere Lose demonstriert würden. Liniendiagramme des Füllungsanteils, die über Stunden mit einer Linie für jedes Los verbunden sind, sind hier der beste Weg.
IMHO, wer zuerst den genauen Zeitpunkt der Änderungen ausgelassen hat,
number of cars
ist der erste, der für irreführende Ergebnisse verantwortlich ist. Wenn Sie diese Informationen hätten (auch wenn sie mit einem Fehler gemessen wurden),time
wäre dies eine richtige kontinuierliche Variable, nicht unbedingt eine gruppierte kontinuierliche Variable (siehe Anderson, 1984). Sie können Beobachtungen in Gruppen gruppieren,hour
wenn Sie dies wirklich möchten. Zu diesem Zeitpunkt übernehmen Sie die Verantwortung für die Ableitung irreführender Ergebnisse. Andernfalls können Sie durch Beibehaltung präziser Ankunftszeiten Ihrenumber of cars
Zeitreihen kontinuierlich kontinuierlichtime
genau grafisch darstellen .Wie auch immer, vorausgesetzt du steckst bei
number of cars
per festhour
Ich stimme @John zu, Sie sollten eine Linie ziehen, die Ihre stündlichen Beobachtungen verbindet. Wenn Sie keine Informationen darüber haben, wann jede inkrementelle Änderung stattgefunden hat, ist es ziemlich schwer zu sagen, dass Sie jemanden irreführen, es sei denn, Sie beschreiben die Grenzen der grafischen Informationen nicht. Wenn Sie Ihre stündlichen Daten mit einem einfachen Balkendiagramm ohne Verbindungslinie zwischen den Behältern grafisch darstellen, sind Sie nicht wirklich schuldig, jemanden irrezuführen, wenn Sie nicht behaupten, dass die Änderungen zwischen den stündlichen Beobachtungen genau wie abgebildet zur vollen Stunde erfolgen. alles auf einmal. Wenn jemand etwas falsch versteht (wie es wahrscheinlich bei ausreichend publizierten Statistiken oder Daten der Fall sein wird), werden Sie diese nicht irreführen, insbesondere wenn Sie Ihre Daten und das Erfassungsverfahren ausreichend detailliert beschreiben. So viel sollte nicht schwer zu tun sein.Angesichts der grundlegenden Klarheit und Gründlichkeit der Daten- und Diagrammbeschreibungen sollte es keinen Nachteil geben, eine Linie zum Verbinden Ihrer Behälter zu zeichnen. Der Vorteil des Verbindens Ihrer Behälter ist in der Tat der Nachteil, den Sie zu denken scheinen: Das Zeichnen dieser Linien ahmt eine halbwegs anständige Gleichung für
number of cars
als Funktion der kontinuierlichen nachtime
, obwohl sie auf diskreten stündlichen Beobachtungen basiert. Sie können eine gerade Linie zwischen den Beobachtungen verwenden, um eine ziemlich vernünftige Annahme darzustellen, dass die Änderung linear über jede Beobachtung erfolgthour
, nicht alle auf einmal. Basierend auf einer solchen Annahme kann jeder Leser eine vernünftige Vermutung anstellen, welcheminute
nach einer bestimmtenhour
Messung das nächste Auto nach diesem vernünftigen vierstufigen Verfahren ankommt oder abfährt:number of cars
hour
hour
Achse schneidetdistance
Punkt dieses Punktes auf derhour
Achse vom Punkt der vorherigen Beobachtung ausdistance
distance between observations
minute
hour
Natürlich kann man die Ankunft des nächsten Autos auch auf die genaue Sekunde genau schätzen, und Sie können die Leser nicht davon abhalten, dies zu tun, indem Sie die Linie nicht angeben - das Zeichnen der Linie wird nur zum ersten von fünf Schritten. Wenn also jemand tatsächlich wissen möchte, wie viele Autos in der Zwischenzeit dort waren, kann er das nicht, weil die Informationen nicht verfügbar sind, aber er kann schätzen. Ich stelle mir vor, dass sie dankbar sein werden, wenn Sie ihnen einen Schritt aus dem Prozess machen.
Wenn Sie dies für Ihre Leser mit einfachen, geraden Linien tun, bedeutet dies nur, dass Sie davon ausgehen, dass die Änderung linear zwischen stündlichen Beobachtungen erfolgt, oder genauer gesagt, Ihr Desinteresse an Ungenauigkeiten in dieser Annahme. Ungenauigkeiten sind nicht schwer vorstellbar. Erstens tritt die Änderung notwendigerweise als nichtlineare, null aufgeblasene Funktion von auf
time
. Es ist nichtlinear, weil das Änderungsereignis ternär ist : Entweder kommt ein Auto an, fährt ab oder auch nicht - Autos kommen nicht in Bruchteilen an oder fahren ab. Es ist auf Null aufgepumpt, weil in den meisten Momenten kein Auto ankommt oder abfährt. Sie können dies umgehen, indem Sie die Linie so behandeln,probability
dass sie beschreibt, dass Autos in einem bestimmten Moment ankommen oder abfahren, um die nächste ganze Zahl zu erreichen.Eine weitere Ungenauigkeit der Annahme hinter geraden Linien zwischen stündlichen Beobachtungen bleibt bestehen. Es ist zu erwarten, dass sich die Änderungsrate (in Bezug auf
probability
die obigen Ausführungen) im Laufe der Zeit reibungsloser ändert, als es Ihre zwischen den Punkten getrennt gezeichneten geraden Linien implizieren. Mathematischer ausgedrückt möchten Sie möglicherweise, dass die Ableitung Ihrernumber of cars
(hour
) -Funktion überhour
s hinweg stetig ist . Möglicherweise können Sie dies tun, indem Sie Ihren Daten eine Polynomfunktion anpassen. Wenn Ihr Zweck jedoch prädiktiv ist, achten Sie auf eine Überanpassung .Ein weiterer Vorteil von Linien gegenüber Balken im Histogrammstil (dh ohne Zwischenabstand für benachbarte Werte von
hour
... geschweige denn Diagrammen mit Balken, die sich nicht "berühren") ergibt sich aus Ihrer polytomenlot
Variablen. Sie können Ihre separaten Zeitreihen für jedes Los in demselben Diagramm überlagern, um Vergleiche zu erleichtern. Auf diese Weise können Sie feststellen, ob Ihrelot
Variable interessant ist. Hier ist eine Demonstration mit einigen erfundenen Daten:Ein großes Lob an McCown !
Ich werde nicht einmal versuchen herauszufinden, wie man das kohärent mit Bars macht. Ich überlasse das @ ChristianStade-Schuldt;) Um fair zu sein, ist es noch einfacher, diese Punkte nicht wie vorgeschlagen zu verbinden, aber das Hinzufügen der Linien hilft dabei, die Punkte zu unterscheiden, die getrennten Zeitreihen voneinander entsprechen. Am Ende wird es immer noch ein wenig subjektiv sein, also urteilen Sie selbst:
Ich jedenfalls finde mich ohnehin dabei, die Linien in meinem Kopf zu ziehen. Übrigens, wenn Sie der Meinung sind, dass die Linien in der ersten Abbildung die visuelle Wirkung der exakten Punkte beeinträchtigen, vergessen Sie nicht, dass Sie die Punkte jederzeit vergrößern, ihre Form ändern oder ihre Werte numerisch in einer separaten Tabelle darstellen können .
Referenz
Anderson, JA (1984). Regression und geordnete kategoriale Variablen. Zeitschrift der Royal Statistical Society B, 46 , 1–30.
quelle
Eine durchgezogene Linie zeigt ein Kontinuum an. Wenn Durchschnittswerte aufgezeichnet werden sollen, würde ich entweder ein Balkendiagramm oder ein Treppenstufen-Diagramm verwenden. Das Zeichnen einzelner Punkte ist ebenfalls möglich, und wenn es um Durchschnittswerte geht, können Sie bei Bedarf wahrscheinlich Standardabweichungsinformationen hinzufügen.
quelle
Ich würde diese Punkte nicht verbinden, da dies diskrete Werte sind. Abhängig von der Anzahl der Datenpunkte können Sie entweder ein Spalten- / Balkendiagramm oder nur Punkte verwenden.
quelle