plot(filterdacsom5$Median_Income,filterdacsom5$Total_Population,
xlab="Income", ylab ="Population",
main="Demographics plotted for all zip codes in 2017 ",col="red" )
Ich bin neu in R
und verstehe Schiefe.
Dies ist ein Streudiagramm Median_Income
auf der horizontalen Achse und Total_Population
auf der vertikalen Achse. Kann man aus dem Streudiagramm sicher sagen, dass die Daten übrig bleiben oder negativ verzerrt sind?
r
data-visualization
Ben - Monica wieder einsetzen
quelle
quelle
rug
den Achsen ein hinzufügen , um hier einige Einblicke zu erhalten. Siehe?rug
. Scatterplots sind selbst nicht ideal , wenn Schiefe ist alles Sie kümmern uns um - Scatterplots sind Multi-Dimension (x & y) aber Schiefe (AFAIK) nur definiert für die eindimensionale RV (dh es für x definiert ist und für y , aber nicht (x , y))Antworten:
Nein, es ist nicht sicher: Erstens ist das Erscheinungsbild des Diagramms positiv (rechts) und nicht negativ (links). Unabhängig davon müssen Sie hier vorsichtig sein, da es zu Überzeichnungen kommt , was bedeutet, dass Sie nicht wirklich sehen können, was in dieser großen roten Masse in der Mitte vor sich geht. Obwohl es unwahrscheinlich ist, ist es möglich, dass diese rote Punktmasse Konzentrationen von Punkten verbirgt, die die positive Schiefe einer oder beider Variablen beeinträchtigen würden (oder sogar eine negative Schiefe induzieren könnten). Um eine bessere Einschätzung der Schiefe der beiden Variablen zu erhalten, würde ich empfehlen, Kernel-Dichtediagramme der interessierenden Variablen zu
R
erstellen und die Stichprobenschiefe dieser Variablen zu berechnen ( Code hierfür unten).Beachten Sie, dass das Streudiagramm Informationen über die gemeinsame Verteilung der Variablen enthält, die Sie nicht aus einzelnen Dichtediagrammen erhalten. Wenn Sie eine bessere Darstellung der Variablen im Streudiagramm sehen möchten, würde ich empfehlen, diese anzupassen, um Überplotten zu vermeiden - z. B. Alpha-Transparenz oder Konturdiagramm verwenden.
quelle
Dieser Ansatz kann irreführend sein, und deshalb.
Das Streudiagramm kann Ihnen etwas über die Verteilung jeder Variablen sagen. Das Streudiagramm sagt aber auch etwas über die Beziehung zwischen zwei Variablen aus, was zu Problemen führen kann, wenn man nur eine der Variablen interpretiert, z. B. die Schiefe interpretiert.
Nehmen wir einige Daten mit Heteroskedastizität an, bei denen y keine negativen Werte hat (wie in Ihrem Beispiel). Das resultierende Diagramm könnte folgendermaßen aussehen:
Das resultierende Diagramm sieht dem bereitgestellten Diagramm relativ nahe und das Diagramm legt nahe, dass x verzerrt ist, obwohl dies tatsächlich nicht der Fall ist, da x eine gleichmäßige Verteilung aufweist (siehe Code für die Datengenerierung unten), wie das Histogramm für x zeigt:
Somit kann die Beziehung zwischen den Variablen zu einem irreführenden Streudiagramm hinsichtlich der Interpretation der Verteilung einer Variablen führen.
Der Code, den ich für die Handlung verwendet habe:
EDIT: Ich stimme Ben zu, dass die Transparenz und das Überzeichnen in diesem Fall wichtig sind, und deshalb wähle ich für mein Beispiel eine so große Stichprobengröße. Die Verwendung von Transparenz für dieselben Daten ist weniger irreführend.
quelle