Ich spiele mit dem Brustkrebs-Datensatz herum und habe ein Streudiagramm aller Attribute erstellt, um eine Vorstellung davon zu bekommen, welche die meisten Auswirkungen auf die Vorhersage der Klasse malignant
(blau) von benign
(rot) haben.
Ich verstehe, dass die Zeile die x-Achse und die Spalte die y-Achse darstellt, aber ich kann nicht sehen, welche Beobachtungen ich über die Daten oder Attribute aus diesem Streudiagramm machen kann.
Ich suche Hilfe bei der Interpretation / Beobachtung der Daten aus diesem Streudiagramm oder wenn ich eine andere Visualisierung verwenden sollte, um diese Daten zu visualisieren.
R-Code, den ich verwendet habe
link <- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff"
breast <- read.arff(link)
cols <- character(nrow(breast))
cols[] <- "black"
cols[breast$class == 2] <- "red"
cols[breast$class == 4] <- "blue"
pairs(breast, col=cols)
Antworten:
Ich bin mir nicht sicher, ob dies für Sie hilfreich ist, aber für die primäre EDA gefällt mir das
tabplot
Paket wirklich . Gibt Ihnen einen guten Überblick über mögliche Korrelationen in Ihren Daten.quelle
Es gibt eine Reihe von Problemen, die es schwierig oder unmöglich machen, verwendbare Informationen aus Ihrer Streudiagramm-Matrix zu extrahieren.
Sie haben zu viele Variablen zusammen angezeigt. Wenn eine Streudiagrammmatrix viele Variablen enthält, wird jedes Diagramm zu klein, um nützlich zu sein. Zu beachten ist, dass viele Diagramme dupliziert werden, was Platz verschwendet. Auch wenn Sie jede Kombination sehen möchten, müssen Sie sie nicht alle zusammen zeichnen. Beachten Sie, dass Sie eine Streudiagramm-Matrix in kleinere Blöcke von vier oder fünf aufteilen können (eine Zahl, die sinnvollerweise sichtbar ist). Sie müssen nur mehrere Diagramme erstellen, eines für jeden Block.
Da Sie viele Daten an diskreten Punkten im Raum haben , werden diese übereinander gestapelt. Sie können also nicht sehen, wie viele Punkte sich an jedem Ort befinden. Es gibt verschiedene Tricks, die Ihnen dabei helfen.
Mit diesen Strategien finden Sie hier ein Beispiel für einen R-Code und die erstellten Diagramme:
quelle
Es ist schwierig, mehr als 3-4 Dimensionen in einem einzigen Diagramm zu visualisieren. Eine Möglichkeit wäre die Verwendung der Hauptkomponentenanalyse (PCA), um die Daten zu komprimieren und sie dann in den Hauptdimensionen zu visualisieren. Es gibt verschiedene Pakete in R (sowie die
prcomp
Basisfunktion), die dies syntaktisch einfach machen ( siehe CRAN ); Das Interpretieren der Diagramme und Ladungen ist eine andere Geschichte, aber ich denke einfacher als eine 10-variable ordinale Streudiagramm-Matrix.quelle