Schätzer für eine Inzidenzrate

8

Während eines Statistikkurses für Medizinstudenten stieß ich auf ein Problem im Zusammenhang mit Inzidenzraten. Der Kontext des Problems ist ein Kapitel über die Poisson-Verteilung. In dem Problem werden 2300 Raucher über einen Zeitraum von 1 Jahr beobachtet, in dem 24 von ihnen Lungenkrebs entwickeln. Sie möchten dann die Inzidenzrate des Prozesses berechnen und wie folgt vorgehen:

Incidence rate=24230024/2

Zuerst verstand ich nicht, warum sie subtrahierten , aber ich nahm an, dass dies eine Korrektur für die Tatsache war, dass diese 24 Personen, da sie im Laufe des Jahres an Krebs erkranken, eine kürzere Risikodauer haben als diejenigen, die sich nicht entwickeln die Krankheit. Im Lehrbuch selbst wurden keine weiteren Informationen angegeben, zumindest nicht im Problem. Eine schnelle Suche bestätigte, dass ich in die richtige Richtung denke.24/2

Aber ich verstehe die Gründe für die Formel immer noch nicht. Kann mich jemand aufklären? Auch wenn einige Referenzen für Medizinstudenten zugänglich sein könnten. Es macht mir nichts aus, auch technischere Referenzen zu haben.

Raskolnikov
quelle
1
Ich verstehe Ihre Frage nicht ganz - können Sie sie noch etwas näher erläutern? Inzidenzraten sind genau das, Raten und haben somit die Personenzeit im Nenner "ausgesetzt". Sie haben Recht mit dem 24/2, was die Annahme widerspiegelt, dass die Menschen, die an Lungenkrebs erkranken, dies in der Mitte des Intervalls getan haben und sie daher nach 6 Monaten zensieren. Im Gegensatz dazu könnten Sie eine Prävalenzrate (24/2300) schätzen, aber eine Prävalenz ist eine Funktion der Inzidenz und der Krankheitsdauer und daher weniger nützlich, wenn Sie daran interessiert sind, Krankheitsursachen zu identifizieren.
DL Dahly
Aber warum ist diese Annahme in Ordnung?
Raskolnikov
Nur weil es eine bessere Annahme ist als zum Beispiel nach 3 oder 9 Monaten zu zensieren. Wenn Sie keinen saisonalen Effekt oder ähnliches hatten, ist Ihre beste Schätzung der Mittelpunkt des Intervalls. Die einzige Möglichkeit, dies zu verbessern, besteht darin, Ihre Daten mit einer höheren zeitlichen Auflösung zu erfassen.
DL Dahly

Antworten:

6

Ich schlage vor, das Auftreten von Krebs als Poisson-Prozess zu modellieren. Während des Beobachtungszeitraums sind innerhalb eines Individuums mehrere Ereignisse (Auftreten von Tumoren) möglich. Wenn die Rate des Auftretens von Tumoren pro Jahr ist, ist die Wahrscheinlichkeit von 0 Ereignissen und die Wahrscheinlichkeit von 1 Ereignis oder mehr ist .e - λ p = 1 - e - λλeλp=1eλ

Sie folgen Personen während eines Jahres. Die Anzahl der Personen mit einem oder mehreren Ereignissen beträgt . Die erwartete Anzahl ist .X B i n ( n , p ) E ( X ) = n p = n ( 1 - e - λ )nXBin(n,p)E(X)=np=n(1eλ)

Jetzt beobachten Sie Ereignisse und möchten schätzen . Schätzen Sie zuerst , dann . Durch die Invarianz von Maximum-Likelihood-Schätzern ist die MLE von .λ p = xxλ λ =-log(1-xp^=xn & lgr;& lgr;λ^=log(1xn)xn+x22n2λ^λ

Ihr Schätzer ist . Der Unterschied zwischen den beiden Schätzern beträgt ungefähr , was sehr klein ist, wenn klein ist. Ich denke, dies liefert eine Rechtfertigung, auch wenn eine andere Modellierung möglicherweise direkt zu Ihrem Schätzer führen könnte. x3/6n3x/nx/n1x/2nxn+x22n2x3/6n3x/n

Elvis
quelle
4
log(1z)log(1z)z/(1z/2)z
peλ
@Raskolnikov Ich danke Ihnen für diese nette Frage, die zu einer schönen Übung für meine Schüler führt;) auch schönes Pseudo
Elvis
@ Cardinal Und schöne Ausgabe!
Elvis
3

Unter der Annahme, dass die Krebsdiagnosen gleichmäßig über das Jahr verteilt sind, sind die diagnostizierten Personen dem Risiko ausgesetzt, (durchschnittlich) ein halbes Jahr vor dieser Diagnose diagnostiziert zu werden.

Ihr Link erwähnt die Annahme des Auftretens zur Hälfte des Beobachtungszeitraums, aber nicht, woher es kommt - was nur die Annahme der Einheitlichkeit ist. Diese Annahme ist nicht immer vernünftig, und es gibt Zeiten, in denen sie einen wesentlichen Unterschied machen kann. Ich würde empfehlen, die Annahme jedes Mal zu kennen, wenn Sie die Formel verwenden, da Sie ihre Eignung prüfen sollten und wenn sie nicht geeignet ist, ob sie wahrscheinlich einen wesentlichen Einfluss auf die Schätzung hat (in diesem Fall eine bessere Annahme) über das Vorkommen sollte untersucht werden)

Glen_b -Reinstate Monica
quelle
Also, das ist alles was dazu gehört? Annahme der Einheitlichkeit? Aber warum sollte die Einheitlichkeit der Diagnosen von Bedeutung sein? Warum nicht die Wahrscheinlichkeit einer Ansteckung mit der Krankheit, von der ich annehme, dass sie eher auf Poisson verteilt ist (zumindest als Nullmodell)?
Raskolnikov
Die Annahme der Einheitlichkeit ist, woher sie kommt, also ja, das ist alles, was es ist; In Ermangelung anderer Informationen (und manchmal sogar in Gegenwart) ist dies eine häufige Annahme bei der Berechnung des Risikoengagements. Was die Diagnose betrifft, habe ich angenommen, dass es sich bei den Daten um Diagnose und nicht um Inzidenz handelt, da wir keine nicht diagnostizierte Inzidenz beobachten. Was auch immer analysiert wird, ist das, worauf die Annahme zutreffen müsste.
Glen_b -Reinstate Monica
Um genauer zu sein, erwähnt Ihr Link die Formel als aus der 'versicherungsmathematischen Methode' stammend. Das relevante versicherungsmathematische Material sind die Elemente des Risikos, die in jedem mir bekannten versicherungsmathematischen Lehrplan Standard sind. Diese spezifische Annahme der Einheitlichkeit habe ich mir nicht nur ausgedacht, sie ist in der versicherungsmathematischen Ausbildung absolut explizit . Sie haben gefragt, woher es kommt. der Link erwähnt die versicherungsmathematische Methode; Dies ergibt sich wiederum aus dem versicherungsmathematischen Standardansatz, einem Risiko ausgesetzt zu sein.
Glen_b -Reinstate Monica