Ich lese A. Agresti (2007), Eine Einführung in die kategoriale Datenanalyse , 2 .. Ich bin mir nicht sicher, ob ich diesen Absatz (S.106, 4.2.1) richtig verstehe (obwohl es einfach sein sollte):
In Tabelle 3.1 zu Schnarchen und Herzerkrankungen im vorherigen Kapitel gaben 254 Probanden an, jede Nacht zu schnarchen, von denen 30 an Herzerkrankungen litten. Wenn die Datendatei Binärdaten gruppiert hat, werden diese Daten in einer Zeile in der Datendatei als 30 Fälle von Herzerkrankungen bei einer Stichprobengröße von 254 gemeldet. Wenn die Datendatei nicht gruppierte Binärdaten enthält, bezieht sich jede Zeile in der Datendatei auf a separates Subjekt, also enthalten 30 Zeilen eine 1 für Herzerkrankungen und 224 Zeilen eine 0 für Herzerkrankungen. Die ML-Schätzungen und SE-Werte sind für beide Datendateitypen gleich.
Das Transformieren eines Satzes nicht gruppierter Daten (1 abhängig, 1 unabhängig) würde mehr als "eine Zeile" erfordern, um alle Informationen einzuschließen!?
Im folgenden Beispiel wird ein (unrealistischer!) Einfacher Datensatz erstellt und ein logistisches Regressionsmodell erstellt.
Wie würden gruppierte Daten tatsächlich aussehen (Registerkarte "Variable"?)? Wie könnte dasselbe Modell mit gruppierten Daten erstellt werden?
> dat = data.frame(y=c(0,1,0,1,0), x=c(1,1,0,0,0))
> dat
y x
1 0 1
2 1 1
3 0 0
4 1 0
5 0 0
> tab=table(dat)
> tab
x
y 0 1
0 2 1
1 1 1
> mod1=glm(y~x, data=dat, family=binomial())
quelle
tab <- table(x,y, dnn=c('snoring','disease')); glm(tab ~ as.numeric(rownames(tab)), family=binomial)
würde so etwas funktionieren (Minuszeichenumkehr für die Koeffizienten, weil "Ja" mit 0 statt 1 codiert ist).