Wie gehe ich mit Umfragefragen mit Mehrfachantworten um?

10

Ich habe einen Datensatz, in dem Leute gefragt werden, ob sie an einem bestimmten Ort waren (z. B. A, B, C, D), und sie können mehr als eine Wahl treffen. Dann wird ihnen eine Probe aus der Nase entnommen, um festzustellen, ob sie mit einigen infiziert sind Krankheit.

Ich muss das relative Risiko einer Infektion für einen bestimmten Ort herausfinden. Ich kann derzeit nur an eine logistische Regression denken. Gibt es noch andere Vorschläge?

Vielen Dank.

lokheart
quelle

Antworten:

2

Sie können weiterhin die logistische Regression verwenden, da Ihr Ergebnis dichotom ist, infiziert oder nicht infiziert. Ich würde einfach einen Dummy-Variablenansatz wählen und kein Reisen als Referenzkategorie verwenden (dh für jeden Ihrer Orte haben Sie eine Variable, die als 1 codiert ist, wenn sie diesen Ort besucht haben, und als 0 codiert, wenn sie diesen Ort nicht besucht haben). Wenn Sie also Ihre Beta-Koeffizienten in Quoten umwandeln (dh die logarithmischen Quoten potenzieren), ist die Interpretation der Dummy-Variablen für Standort A das Quotenverhältnis von Besuchsort A zu Nichtbesuchsort A, der für andere besuchte Orte kontrolliert. Beachten Sie auch, dass bei diesem Ansatz die Multikollinearität ein Problem darstellt (z. B. wenn viele der Personen, die nach A reisen, auch nach B reisen, kann dies jeden ihrer Koeffizienten beeinflussen).

Andy W.
quelle
5
Dieses Modell geht davon aus, dass die Reaktion eine additive Funktion des Reisens zu jedem Ort ist, was höchst unwahrscheinlich ist. Es kann weiterhin durch Einfügen von Interaktionsbegriffen zum Funktionieren gebracht werden. Möglicherweise ist ein vollständiger Satz aller möglichen Interaktionen erforderlich (über die wechselseitigen Interaktionen hinaus). (Das wäre mathematisch identisch mit der Bereitstellung eines separaten Dummys für jede mögliche Kombination von Zielen.)
whuber
4
Besser viele Daten haben, wenn Sie alle Interaktionen (15 Parameter) verwenden und nicht nur die Haupteffekte (4 Parameter) ...
Stephan Kolassa
@whuber und @Stephen, Danke für die Antworten, und ich stimme jedem von euch voll und ganz zu. Ich persönlich wäre mit dem Dummy-Variablen-Ansatz für Haupteffekte einverstanden, wenn Mehrfachantworten nicht allzu häufig wären, was angesichts der Bedenken der ursprünglichen Poster möglicherweise keine haltbare Annahme ist. Ich würde vielleicht andere Designs vorschlagen, wenn das Originalplakat an dem Risiko interessiert wäre, nach A gegen B zu reisen (wie zum Beispiel eine Art Matching-Verfahren). Und ich stimme zu, dass ein additives Risiko nur dann sinnvoll ist, wenn eine gewisse Auswahlverzerrung auftritt.
Andy W