Frage: Wann (bei welchen Arten von Datenvisualisierungsproblemen) sind Heatmaps am effektivsten? (Insbesondere effektiver als alle anderen möglichen Visualisierungstechniken?)
Wann sind Wärmekarten am wenigsten wirksam?
Gibt es gemeinsame Muster oder Faustregeln, anhand derer entschieden werden kann, ob eine Heatmap eine effektive Methode zur Visualisierung der Daten darstellt und wann diese wahrscheinlich unwirksam sind?
(Grundsätzlich habe ich Wärmekarten für 2 kategoriale Variablen und 1 kontinuierliche Variable im Auge, bin aber auch daran interessiert, Meinungen zu anderen Arten von Wärmekarten zu hören.)
Kontext: Ich nehme an einem Online-Kurs zur Datenvisualisierung teil und sie diskutieren derzeit ineffektive und überlastete Diagrammtypen. Sie erwähnten bereits Dynamit-Diagramme und Kreisdiagramme, und die Gründe, warum diese unwirksam sind und warum es bessere Alternativen zu ihnen gibt, waren klar und überzeugend für mich. Darüber hinaus war es leicht, andere Quellen zu finden, die die gegebenen Meinungen zu Dynamitplots und Kreisdiagrammen bestätigten.
Der Kurs sagte jedoch auch, dass "Wärmekarten eine der am wenigsten wirksamen Arten der Datenvisualisierung sind". Eine Umschreibung der Gründe dafür finden Sie weiter unten. Aber als ich versuchte, andere Orte auf Google zu finden, die diesen Standpunkt bestätigen, hatte ich große Schwierigkeiten, im Gegensatz zu Meinungen über die Wirksamkeit von Kreisdiagrammen und Dynamitplots. Daher möchte ich wissen, inwieweit die im Kurs angegebene Charakterisierung von Heatmaps gültig ist und wann die Faktoren, die dagegen sprechen, für einen bestimmten Kontext am unwichtigsten und wichtigsten sind.
Die angegebenen Gründe waren:
Es ist schwierig, Farbe auf einen kontinuierlichen Maßstab abzubilden.
Es gibt einige Ausnahmen von dieser Regel, so dass dies normalerweise kein Deal Breaker ist, aber im Fall von Heatmaps ist das Problem besonders schwierig, da sich unsere Wahrnehmung einer Farbe in Abhängigkeit von den benachbarten Farben ändert. Daher eignen sich Heatmaps auch für kleine Datensätze nicht zum Anzeigen einzelner Ergebnisse. Was dazu führt:
Die Beantwortung spezifischer Fragen mit einer Tabellensuchmethode ist im Allgemeinen nicht möglich, da es unmöglich ist, den einer bestimmten Farbe entsprechenden Zahlenwert mit ausreichender Genauigkeit abzuleiten.
Oft sind die Daten nicht so gruppiert, dass Trends sichtbar werden.
Ohne eine solche Clusterbildung ist es oft schwierig oder unmöglich, auf allgemeine Gesamtmuster zu schließen.
Heatmaps werden häufig nur verwendet, um einen "Wow-Faktor" zu kommunizieren oder einfach nur cool auszusehen, insbesondere wenn ein mehrfarbiger Farbverlauf verwendet wird. In der Regel gibt es jedoch bessere Möglichkeiten, die Daten zu kommunizieren.
Das Plotten kontinuierlicher Daten in einem gemeinsamen Maßstab ist immer die beste Option. Wenn es eine Zeitkomponente gibt, ist die naheliegendste Wahl ein Liniendiagramm.
quelle
Antworten:
Es gibt keine "beste" Handlung für dieses oder jenes. Wie Sie Ihre Daten zeichnen, hängt von der Nachricht ab, die Sie übermitteln möchten. Häufig verwendete Diagramme haben den Vorteil, dass Benutzer sie mit höherer Wahrscheinlichkeit lesen können. Das bedeutet jedoch nicht, dass sie unbedingt die beste Wahl sind.
In Bezug auf Heatmaps habe ich meine Antwort mit den angeblichen Argumenten gegen sie angeordnet.
Zu 1) Wenn Sie der Farbe als Kodierungskanal nicht vertrauen, verwenden Sie stattdessen die Helligkeit mit einer Skala von Dunkelgrau bis Hellgrau. In den meisten Fällen möchten Sie fortlaufende Variablen ablegen (siehe auch 5), um die Anzahl der Farben niedrig zu halten und die Dekodierung durch Benutzer zu vereinfachen. Dies ist jedoch kein Muss. Schauen Sie sich dieses Beispiel an , in dem die stetige Variable nicht in Klassen unterteilt ist.
Ad 2) Natürlich sollten sie nicht als Alternative verwendet werden, um genaue Werte nachzuschlagen. Heatmaps sollten in erster Linie zur Veranschaulichung von Mustern und nicht zum Ersetzen von Tabellen verwendet werden.
Ad 3 + 4) Ich verstehe nicht, wie dies nur mit Heatmaps zusammenhängen würde.
Ad 5) Heatmaps werden idealerweise aber nicht unbedingt mit diskreten Variablen verwendet. Für kontinuierliche Variablen können Wärmekarten als eine Art zweidimensionales Histogramm oder Balkendiagramm mit korrekter Gruppierung sowie Helligkeit als Kodierungskanal verwendet werden.
quelle
Jemand kann nicht sagen, dass Heat Map die am wenigsten wirksame Art der Visualisierung ist. Ich würde eher sagen, dass es von Ihrer Anforderung abhängt. In einigen Fällen sind Heatmaps sehr nützlich. Angenommen, Sie müssen einen Bericht über die Kriminalität in einem Land in Bezug auf den Staat (oder in Bezug auf die Stadt) erstellen. Hier haben Sie einen riesigen Datensatz, der zeitabhängig sein kann.
Angenommen, Sie müssen einen Bericht über den Stromverbrauch in Städten erstellen. In diesen Fällen können Sie leicht durch Heatmap visualisieren. Das macht mehr Sinn und ist weniger umständlich.
Kurz gesagt, wenn Sie viele kontinuierliche Daten haben und einen Bericht erstellen möchten, der die Antworten schnell aufzeigt, ist Heatmap am besten geeignet.
quelle
Kritik 1 in der ursprünglichen Frage deckt den größten Nachteil ab - dass es für jemanden, der die Heatmap liest, schwierig ist, die übermittelten quantitativen Informationen zu dekodieren. Stellen Sie sich ein XY-Streudiagramm oder ein Punktdiagramm vor, bei dem die zugrunde liegende Größe in direktem Zusammenhang mit dem Abstand auf dem Diagramm steht - sehr einfach zu interpretieren.
In einer Heatmap hingegen kann die Person, die die Tabelle liest, 10% „röter“ oder „dunkler“ zu ihrer eigenen Zufriedenheit interpretieren. Hinzu kommt das Problem der unterschiedlichen Fähigkeit der Menschen, zunächst Farbe und Schatten zu erkennen. Dies sind echte Nachteile, die jedoch nicht allgemein tödlich sind.
Im Gegensatz dazu scheint die dritte Kritik versehentlich eine Gelegenheit zu identifizieren, bei der Wärmekarten besonders nützlich sind - wenn die Daten auf einer 2D-Ebene gruppiert werden, sodass ähnliche Werte in einer dritten Dimension als Flecken einer bestimmten Farbe oder Schattierung angezeigt werden. Während Heatmaps in einigen Dingen ineffektiv sind, sind sie für andere nützlich und sollten in Ihrer Tasche bleiben, so wie Golfer oft Pitching Wedges oder ähnliches tragen, obwohl sie zum Fahren oder Putten unbrauchbar sind oder Tischler dies nicht tun Hämmer nicht beachten, da sie nicht zum Schneiden von Holz geeignet sind.
Im Allgemeinen sollte das Visualisieren von Daten als iterative Aktivität angesehen werden, die einige Zeit in Anspruch nimmt, wenn Sie eine Reihe von Visualisierungen ausprobieren, die die wichtigen Merkmale der Daten hervorheben, z besondere Entscheidungen. Es sollte auch nicht angenommen werden, dass das Ergebnis eine einzige Visualisierung ist - manchmal sind mehrere Visualisierungen von Daten erforderlich, um mehrere wichtige Merkmale der Daten hervorzuheben. In diesem Zusammenhang wird es Zeiten geben, in denen für bestimmte Merkmale bestimmter Datensätze die Wärmekarte die effektivste ist und die beschriebenen Kommunikationscluster eine dieser Zeiten sein können. Insgesamt wird es häufig Fälle geben, in denen eine einzige Visualisierung nicht alles kann und mehr als eine erforderlich ist.
quelle
Wie bereits von anderen erwähnt, ist es wirklich unangebracht zu sagen, dass Wärmekarten immer ineffektiv sind. Tatsächlich sind sie in vielen Fällen recht effektiv.
Wenn Sie beispielsweise 4D-Daten visualisieren möchten, ist es in vielen Plot-Programmen einfach genug, die ersten drei Dimensionen zu erstellen. Das gesamte Konzept von 4D ist jedoch ziemlich schwierig zu konzipieren. Was ist die "4." Richtung / Dimension?
Hier kann eine Wärmekarte effektiv sein, da die ersten drei Dimensionen auf der Koordinatenachse dargestellt werden können. Die vierte kann durch Stapeln einer Wärmekarte auf die geplottete Ebene (oder Linie, aber das ist weniger wahrscheinlich) visualisiert werden.
Fazit ist, dass Sie Kontext benötigen. Was suchen Sie in Ihrer Visualisierung? Außerdem kann ich Ihnen als Mit-Autodidakt sagen, dass diese Online-Kurse in der Regel sehr trivial und wenig hilfreich sind. Sie sind viel besser dran, wenn Sie nur nach Informationen / Hilfe zu bestimmten Themen suchen, anstatt sich über ein ganzes Thema unterrichten zu lassen.
Trotzdem viel Glück.
quelle
Von Natur aus zeigt eine Heatmap Daten mit zwei kontinuierlichen unabhängigen Variablen (oder nicht ganz gleich einer unabhängigen Variablen aus einem zweidimensionalen Vektorraum) und einer kontinuierlichen abhängigen Variablen an. Für Daten dieser Art, ist eine Heatmap definitiv eines der am meisten effektiven Arten von Datenvisualisierung. Ja, es hat seine Probleme, aber das ist unvermeidlich: Sie müssen wirklich nur mit zwei Dimensionen arbeiten, und ein dreidimensionaler Raum kann nicht auf strukturerhaltende Weise darauf abgebildet werden . Daher benötigen Sie einen Hack wie das Abbilden einer Dimension auf Farbe oder Konturlinien zeichnen etc ..
Wenn Sie sich in einer Situation befinden, in der eine Heatmap über zwei kategoriale Variablen nützlich erscheint, ist dies ein Hinweis darauf, dass es sich wahrscheinlich nicht wirklich um kategoriale Variablen handelt, sondern vielmehr um quantisierte kontinuierliche Variablen.
quelle
Heatmaps bieten eine vereinfachte Darstellung mehrerer Variablen aus einer Zeitreihenperspektive. Die Daten können absolute Änderungen im Zeitverlauf sein oder mit Z-Scores oder anderen Mitteln standardisiert werden, um Variablen mit unterschiedlichen Messintervallen oder relativen Änderungen von Untergruppen zu untersuchen. Es bietet eine sehr visuell wahrnehmbare Ansicht, dass man Korrelationen erkennen oder eine Vielzahl von Graphen umkehren und ersetzen kann. Sie können auch in der Vorverarbeitung verwendet werden, um eine mögliche Dimensionsreduktion zu bewerten, z. B. Factoring oder PCA.
Die schlecht intervenierenden Variablen und andere Faktoren können ausgeblendet und weitergegeben werden, wenn dieser Ansatz zur Erkennung von Korrelationen verwendet wird. Dieselben verborgenen Aspekte treten bei Liniendiagrammen auf - jedoch aufgrund der großen Anzahl von Variablen -. Meine Erfahrung ist, dass Heatmaps so viele Informationen enthalten, dass ein Benutzer weder die dazwischen liegenden Aspekte noch andere verborgene Faktoren berücksichtigt.
Dies von einem Datenwissenschaftler aus einer fortschrittlichen wirtschaftswissenschaftlichen Perspektive mit 20 Jahren Erfahrung auf dem Gebiet der Datenerzeugung und der Aufgabe, die Öffentlichkeit mit solchen Daten zu unterrichten.
quelle
Heatmaps sind gegenüber Streudiagrammen von Vorteil, wenn zu viele Datenpunkte auf einem Streudiagramm angezeigt werden können. Dies kann in einem Streudiagramm mithilfe von durchscheinenden Datenpunkten gemildert werden. Ab einem bestimmten Schwellenwert ist es jedoch besser, die Daten zusammenzufassen.
In diesem Blog-Beitrag wird ein überzeugendes Beispiel für schwer zu interpretierende Streudiagramme gegeben.
Eine ähnliche Aussage aus den ggplot2-Dokumenten zur Heatmap von 2d bin counts :
In den Dokumenten von
geom_point()
:quelle