Ich arbeite an Krankheitsinfektionsdaten und bin verwirrt, ob ich die Daten als "kategorisch" oder "kontinuierlich" behandeln soll.
- "Infektionszahl"
- Die Anzahl der in einem bestimmten Zeitraum gefundenen Infektionsfälle wird aus kategorialen Daten generiert (dh Anzahl der als "infiziert" gekennzeichneten Patienten).
"Patientenbett Tage"
- Summe der Gesamtzahl der Tage, die alle Patienten auf dieser Station in der Station verbracht haben. Die Anzahl wird wiederum aus kategorialen Daten generiert (dh Anzahl der Patienten, die als "Aufenthalt in dieser bestimmten Station" gekennzeichnet sind).
"Infektion pro Patiententag"
- "Infektionszahl" / "Patientenbetttage" waren ursprünglich beide Zähldaten, werden aber jetzt zu einer Rate
Frage:
- Kann ich hier Chi-Square verwenden, um festzustellen, ob der Unterschied bei "Infektionen pro Patiententag" statistisch signifikant ist oder nicht?
Aktualisierung
Ich habe festgestellt, dass ich die Inzidenzrate vergleichen (oder als Infektionsrate bezeichnen) kann, aber so etwas wie "Inzidenzratenunterschied" (IRD) oder "Inzidenzratenverhältnis" (IRR) mache. (Ich habe es von hier gefunden )
- Was ist der Unterschied zwischen IRD und T-Test?
- Gibt es einen statistischen Test, der die IRR ergänzt?
categorical-data
count-data
lokheart
quelle
quelle
Antworten:
Für mich klingt es überhaupt nicht angebracht, hier einen Chi-Quadrat-Test zu verwenden.
Ich denke, was Sie tun möchten, ist Folgendes: Sie haben verschiedene Stationen oder Behandlungen oder welche andere Art von nominaler Variable (dh Gruppen), die Ihre Daten aufteilt. Für jede dieser Gruppen haben Sie die Infektionszahl und die Patientenbetttage erfasst , um die Infektion pro Patientenbetttag zu berechnen . Wissen Sie, dass Sie nach Unterschieden zwischen den Gruppen suchen möchten, oder?
Wenn ja, ist eine Varianzanalyse (ANOVA, bei mehr als zwei Gruppen) oder ein t-Test (bei zwei Gruppen) wahrscheinlich angemessen, wenn die Gründe in Srikant Vadalis Beitrag angegeben werden (und wenn die Annahmen Homogenität der Varianzen und vergleichbare Gruppengrößen werden ebenfalls erfüllt) und das
beginner
Tag sollte hinzugefügt werden.quelle
Ich bin mir nicht ganz sicher, wie Ihre Daten aussehen oder was Ihr genaues Problem ist, aber ich gehe davon aus, dass Sie eine Tabelle mit den folgenden Überschriften und dem folgenden Typ haben:
und Sie möchten feststellen, ob die Infektionsrate für verschiedene Stationen statistisch unterschiedlich ist?
Eine Möglichkeit hierfür ist die Verwendung eines Poisson-Modells:
Dies kann erreicht werden, indem ein Poisson glm mit Protokollverknüpfungsfunktion und dem Protokoll der Patientenbetttage im Offset verwendet wird. In R würde der Code ungefähr so aussehen:
quelle
Wenn Sie in Betracht gezogen haben, Poisson oder verwandte Regressionen für diese Daten durchzuführen (mit Ihrer Ergebnisvariablen als Rate), denken Sie daran, einen Offset-Term für die Patientenbetttage anzugeben, da dies technisch zur "Exposition" gegenüber Ihren Zählungen wird.
In diesem Fall möchten Sie möglicherweise auch nur die Infektionszahl (nicht die Rate) als abhängige Variable verwenden und die Patientenbetttage als Kovariate einbeziehen. Ich arbeite an einem Datensatz mit einer ähnlichen Entscheidung zwischen Zählung und Rate. Es scheint, als würde die Konvertierung Ihrer abhängigen Variablen in eine Rate zu einer Verringerung der Variabilität, einer Zunahme der Schiefe und einer proportional größeren Standardabweichung führen. Dies macht es schwieriger, signifikante Effekte zu erkennen.
Achten Sie auch darauf, ob Ihre Daten auf Null oder auf Null aufgeblasen sind, und nehmen Sie die entsprechenden Anpassungen vor.
quelle
Aus technisch puristischer Sicht können Sie nicht, da Ihr Verhältnis "Infektion pro Patiententag" keine kontinuierliche Variable ist. Beispielsweise wird in Ihrem Datensatz niemals ein irrationaler Wert angezeigt. Sie können dieses technische Problem jedoch ignorieren und alle für Ihren Kontext geeigneten Tests durchführen. Analog dazu sind die Einkommensniveaus diskret, aber fast jeder behandelt sie als kontinuierlich.
Übrigens ist nicht ganz klar, warum Sie ein Chi-Quadrat machen wollen, aber ich gehe davon aus, dass es einen Hintergrund gibt, warum dies für Sie sinnvoll ist.
quelle
Chi-Quadrat-Tests scheinen nicht angemessen zu sein. Wie bereits erwähnt, können Sie die Daten, sofern eine angemessene Anzahl unterschiedlicher Raten vorliegt, als kontinuierlich behandeln und eine Regression oder ANOVA durchführen. Sie möchten dann die Verteilung der Residuen betrachten.
quelle
Eine Möglichkeit besteht darin, verschiedene Nullmodelle zu konstruieren, von denen jedes davon ausgeht, dass die Faktoren unabhängig voneinander sind. Die Annahme der Unabhängigkeit macht diese oft einfach zu konstruieren. Dann sind die vorhergesagten Fugendichten die Produkte der Randdichten. In dem Maße, in dem die tatsächlichen Daten mit diesen übereinstimmen, wissen Sie, dass Faktoren unabhängig sind. Wenn sie größer oder kleiner als die gemeinsame Vorhersage sind, können Sie möglicherweise schließen, dass sie sich positiv oder negativ ändern. Achten Sie darauf, die Anzahl der Beobachtungen in jedem Fall zu berücksichtigen, und Sie können dies möglicherweise formal tun, indem Sie Populationen als erweiterte Hypergeometrie behandeln. Dies alles ist im Geiste des Fisher Exact Test, aber Fisher hat es tatsächlich so formuliert, dass allgemeinere Situationen modelliert werden können. Siehe zum Beispiel Diskrete multivariate Analyse: Theorie und Praxis von Yvonne M. Bishop,
quelle