Wie lassen sich die Auswirkungen von Kategorien und ihre Verbreitung in der logistischen Regression am besten visualisieren?

11

Ich muss Informationen über die wichtigsten Prädiktoren für die Stimmen eines Kandidaten anhand von Umfragedaten zur öffentlichen Meinung präsentieren. Ich habe eine logistische Regression mit allen Variablen durchgeführt, die mir wichtig sind, aber ich kann keine gute Möglichkeit finden, diese Informationen darzustellen.

Mein Kunde kümmert sich nicht nur um die Größe des Effekts, sondern auch um die Wechselwirkung zwischen der Größe des Effekts und der Größe der Population mit einem solchen Attribut.

Wie kann ich damit in einer Grafik umgehen? Irgendwelche Vorschläge?

Hier ist ein Beispiel:

β

user1172558
quelle
FWIW, die Verwendung des Begriffs "Interaktion" ist falsch (siehe zB hier oder hier ). Ich würde so etwas wie sagen: "... aber über das Identifizieren von Situationen, in denen die Effektgröße groß ist und die Größe der Population mit einem solchen Attribut ebenfalls groß ist".
Gung - Reinstate Monica

Antworten:

10

Ich stimme @PeterFlom zu, dass das Beispiel seltsam ist, aber abgesehen davon stelle ich fest, dass die erklärende Variable kategorisch ist. Wenn dies durchweg zutrifft, wird dies erheblich vereinfacht. Ich würde Mosaikdiagramme verwenden , um diese Effekte darzustellen. Ein Mosaikplot zeigt bedingte Proportionen vertikal an, aber die Breite jeder Kategorie wird relativ zu ihrem marginalen (dh bedingungslosen) Anteil in der Stichprobe skaliert.

Hier ist ein Beispiel mit den Daten der Titanic-Katastrophe, die mit R erstellt wurden:

data(Titanic)

sex.table   = margin.table(Titanic, margin=c(2,4))
class.table = margin.table(Titanic, margin=c(1,4))
round(prop.table(t(sex.table), margin=2), digits=3)
#          Sex
# Survived  Male Female
#      No  0.788  0.268
#      Yes 0.212  0.732
round(prop.table(t(class.table), margin=2), digits=3)
#           Class
# Survived   1st   2nd   3rd  Crew
#      No  0.375 0.586 0.748 0.760
#      Yes 0.625 0.414 0.252 0.240

windows(height=3, width=6)
  par(mai=c(.5,.4,.1,0), mfrow=c(1,2))
  mosaicplot(sex.table,   main="")
  mosaicplot(class.table, main="")

Geben Sie hier die Bildbeschreibung ein

Links sehen wir, dass Frauen viel häufiger überleben, aber Männer machen vielleicht etwa 80% der Menschen an Bord aus. Eine Erhöhung des Prozentsatzes männlicher Überlebender hätte also viel mehr Leben gerettet als eine noch größere Erhöhung des Prozentsatzes weiblicher Überlebender. Dies ist etwas analog zu Ihrem Beispiel. Auf der rechten Seite gibt es ein weiteres Beispiel, bei dem die Besatzung und die Steuerung den größten Anteil an Menschen ausmachten, aber die geringste Überlebenswahrscheinlichkeit hatten. (Für das, was es wert ist, ist dies keine vollständige Analyse dieser Daten, da Klasse und Geschlecht auf der Titanic ebenfalls nicht unabhängig waren, aber es reicht aus, um die Ideen für diese Frage zu veranschaulichen.)

gung - Monica wieder einsetzen
quelle
5

Ich bin ein wenig neugierig, welche Gesellschaft nur 10% Männer hatte ... aber ...

Eine Sache, die Sie tun können, ist, die Quotenverhältnisse zu zeichnen und sie jeweils mit der Größe der Stichprobe zu kennzeichnen.

Wenn beide Variablen grafisch dargestellt werden sollen, können Sie ein Blasendiagramm erstellen, bei dem die Position jeder Blase auf der y-Achse mit der Größe des Quotenverhältnisses und der Fläche der Blase proportional zur Stichprobengröße übereinstimmt.

Peter Flom - Monica wieder einsetzen
quelle
7
Vielleicht dieser .
Andre Silva