Skalieren von Daten in unterschiedlichen Größenordnungen zum Plotten

9

Betrachten Sie den folgenden Datensatz:

 Date        Visits   Carts      carts       Orders
                      Created   converted    Created
2011-11-11    12277     161        9          36  
2011-11-12    11871     93         5          19    
2011-11-13    13072     107        8          8     
2011-11-14    13594     112        4          34    
2011-11-15    12741     129        8          43    
2011-11-16    15491     261        16         57 
2011-11-17    13418     186        17         42    

Ich wurde gebeten, dies in einem Diagramm darzustellen, wobei das Datum die X-Achse und die restlichen Daten die Y-Achse enthält. Das Problem ist, dass der Umfang der Daten dramatisch unterschiedlich ist. Wenn die Anzahl der Besuche bei Tausenden und die Anzahl der erstellten Bestellungen bei den niedrigen Zehnern liegt, werden die Daten in einem Diagramm nicht gut dargestellt.

Ich habe mich gefragt, was ein Statistiker in diesem Szenario tun würde. Ich könnte die Besuche durch 1000 teilen und dann die Beschreibung (Besuche (K)) eingeben, aber dann habe ich das gleiche Problem mit den erstellten Wagen, wie sie sind zu Hunderten und alles andere ist in den niedrigen Zehnern.

Was wird in diesem Szenario gemacht?

Mike
quelle

Antworten:

14

Es ist zu Beginn nicht unangemessen, die Liniendiagramme als eine Reihe kleiner Vielfacher mit unterschiedlichen Maßstäben für die Y-Achse, jedoch mit ausgerichteter X-Achse (Datumsangaben) darzustellen. Geben Sie hier die Bildbeschreibung ein

Ich denke, dies ist ein guter Anfang, da man damit die Rohdaten untersuchen und Trends zwischen verschiedenen Liniendiagrammen vergleichen kann. IMO sollten Sie sich zuerst die Rohdaten ansehen und dann über Konvertierungen oder Möglichkeiten nachdenken, die Diagramme so zu normalisieren, dass sie vergleichbar sind, nachdem Sie die Rohdaten untersucht haben.

Wie King bereits erwähnt hat, scheinen Ihre Variablen eine natürliche Reihenfolge zu haben, die auf den Namen und Nummern basiert. Unter der Annahme, dass dies angemessen ist, habe ich drei neue Variablen basierend auf dem Prozentsatz erstellt, der in jedem Zustand konvertiert wurde. Die neuen Variablen sind;

% Carts Created = Carts_Created/Visits
% Orders Created = Orders_Created/Carts_Created
% Carts Converted = Carts_Converted/Orders_Created

Das Erstellen von Prozentsätzen ist eine Möglichkeit, die Serie einer gemeinsamen Skala näher zu bringen, aber selbst dann ist es immer noch schwierig, die Serie effektiv zu visualisieren, wenn alle Linien in einem Diagramm (wie unten) platziert werden. Das Niveau und die Variation der erstellten Aufträge und der konvertierten Karren der Serie stellen die der anderen Serien in den Schatten. Sie können keine Variation in den von Wagen erstellten Serien in dieser Größenordnung sehen (und ich vermute, dass dies diejenige ist, an der Sie am meisten interessiert sind). Geben Sie hier die Bildbeschreibung ein

IMO ist eine bessere Möglichkeit, dies zu untersuchen, die Verwendung verschiedener Skalen. Unten sehen Sie das Prozent-Diagramm mit verschiedenen Maßstäben.

Geben Sie hier die Bildbeschreibung ein

Mit diesen Grafiken scheint mir keine wirklich bedeutsame Korrelation zwischen den Serien zu bestehen, aber Sie haben innerhalb jeder Serie viele interessante Variationen (insbesondere den konvertierten Anteil). Was ist 2011-11-13los? Sie hatten einen viel geringeren Anteil an erstellten Bestellungen, aber jede erstellte Bestellung war ein konvertierter Warenkorb. Hatten Sie andere Maßnahmen, die Trends bei den Ortsbesichtigungen oder bei den erstellten Proportionen oder Prozentsätzen erklären könnten?

Dies ist alles nur eine explorative Datenanalyse, und um weitere Schritte zu unternehmen, würde ich mehr Einblick in die Daten benötigen (ich hoffe jedoch, dass dies ein guter Anfang ist). Sie könnten die Liniendiagramme auf andere Weise normalisieren, um sie in einem vergleichbaren Maßstab darstellen zu können, aber das ist eine schwierige Aufgabe, und ich denke, Sie können beliebige Maßstäbe effektiv auswählen, basierend auf dem, was angesichts der Daten informativ ist, anstatt einige auszuwählen Standard-Normalisierungsschemata. Eine weitere interessante Anwendung zum gleichzeitigen Anzeigen vieler Liniendiagramme sind Horizontdiagramme. Dies gilt jedoch eher für das gleichzeitige Anzeigen vieler verschiedener Liniendiagramme.

Andy W.
quelle
Vielen Dank für das Detail in Ihrer Antwort. Ich hatte ursprünglich mehrere Diagramme. Meine Chefs haben entschieden, dass sie alle Serien in der Grafik mögen (ich denke, es sind wahrscheinlich zu viele Serien, aber ich bin es nicht, der sie sich ansieht :)). Ich denke, ich werde vielleicht überlegen, die Daten zu normalisieren in 0 - 1. Sie möchten das Diagramm nur zum Anzeigen von Trends verwenden. Die Tabellendaten werden normalerweise unter dem Diagramm angezeigt.
Mike
@ Mike, es ist eine vernünftige Anfrage. Die Normalisierung der Serie sollte den Trend nicht ändern (nur das Niveau und die Variation jeder Serie). Hoffentlich erhalten Sie aufschlussreichere Antworten, wie Sie die Serie auf effektive, aber dennoch sinnvolle Weise normalisieren können. Nur ein Wort der Vorsicht, normalerweise möchten Sie nur 3-5 Linien in einem Diagramm zeichnen. Viel mehr ist sehr schwierig, um all diese Vergleiche durchzuführen (kleine Vielfache sind jedoch eine Lösung für dieses Problem).
Andy W
1
@Mike Ja, in diesem Fall (nur Daten ohne Zahlen visualisieren) können Sie Ihre Daten einfach auf einer Min / Max-Skala ausdrücken, wie dies bei parallelen Anzeigen der Fall ist . Es ist auch eine gute Idee, Zahlen unter der Tabelle anzuzeigen.
Chl
1
Nur ein weiterer Hinweis zur Normalisierung auf eine Min / Max-Skala, wie von @chl vorgeschlagen. Es ist gut, zuerst die Rohdaten zu sehen. Wenn Sie einen großen Ausreißer haben, sollten Sie diesen Wert möglicherweise nicht in den Normalisierungsprozess einbeziehen (obwohl dies offensichtlich sein sollte, wenn Sie dies im normalisierten Diagramm tun, z. B. wenn Sie ein Liniendiagramm haben mit einem hohen / niedrigen Wert und der Rest ist flach). Ich denke, Michael Friendly würde auch der Aufnahme der Tabelle unter der Grafik zustimmen.
Andy W
2

Sie können 2 separate y-Achsen haben, Besuche (k) und Wagen, die in einer erstellt wurden, die anderen 2 in einer anderen (oder je nachdem, wie es Ihrem Zweck entspricht).

Dies ist definitiv keine elegante Methode, aber ich erinnere mich, dass ich es vor Jahren getan habe, als ich nur Trends über die Zeit hinweg vergleichen wollte.

ODER

Sie können die prozentuale Änderung einfach über die Zeit zeichnen, wenn dies Ihrem Zweck entspricht.

König
quelle
Ich habe die Route, die Sie mit den 2 verschiedenen Y-Achsen erwähnt haben, in Betracht gezogen, aber was mir nicht gefallen hat, war: Wenn eine neue Serie eingeführt würde, die nicht auf eine der beiden Y-Achsen passt, würde ich wahrscheinlich stecken bleiben. Vielen Dank für den Vorschlag, und vielleicht ein anderes Mal würde ich dies mehr in Betracht ziehen :)
Mike
Was ist mit dem zweiten Vorschlag zur Verwendung des Prozentsatzes? dh Indizieren Sie alles auf 100 am Startdatum (oder auf welches Datum auch immer Ihr Diagramm hübsch ist). Sie können so viele neue Serien hinzufügen, wie Sie möchten!
König
Das ist eine Option, ich bin derzeit auf Excel und versuche herauszufinden, wie man diese Daten normalisiert und ob es funktioniert. Andernfalls werde ich die prozentuale Idee ausprobieren :)
Mike
2

Am Ende habe ich beschlossen, die Daten zu normalisieren, indem ich jeden Wert durch den Maximalwert dividierte und dann mit 100 multiplizierte.

  1. Finden Sie den Maximalwert:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    12277     161        9          36  
    2011-11-12    11871     93         5          19    
    2011-11-13    13072     107        8          8     
    2011-11-14    13594     112        4          34    
    2011-11-15    12741     129        8          43    
    2011-11-16    15491     261        16         57 
    2011-11-17    13418     186        17         42    
    
    maximum       15491     261        17         57
    
  2. Teilen Sie jede Zahl durch das Maximum und multiplizieren Sie sie dann mit 100:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    79.25     61.68      52.94      63.15  
    2011-11-12    76.63     35.63      29.41      33.33    
    2011-11-13    84.38     40.99      47.05      14.03      
    2011-11-14    87.75     42.91      23.52      59.64    
    2011-11-15    82.24     49.42      47.05      75.43    
    2011-11-16    100       100        94.11      100
    2011-11-17    86.61     71.26      100        73.68    
    
  3. Ich habe dies dann in der Grafik dargestellt, dies zeigt offensichtlich nur den Trend und der Benutzer hat die Datentabelle am Ende der Seite.

Mike
quelle
0

Das wäre auch mein Ansatz - - die verschiedenen Dimensionen durch Teilen durch X auf den gleichen Maßstab einzustellen, aber ich würde den Durchschnittswert verwenden, nicht den Maximal- oder Minimalwert. Der Grund dafür ist, dass sich beim Hinzufügen von Daten im Laufe der Zeit wahrscheinlich Ihr Maximum oder Min ändern wird und das, was im letzten Diagramm zu 100% war, diesmal etwas anderes ist - das Diagramm ist nicht so einfach mit früheren Diagrammen abzustimmen - - wenn Wenn Sie den Durchschnitt verwenden, sind die Änderungen nicht so drastisch.

bjf
quelle