Berechnen Sie die Wahrscheinlichkeit des Auftretens einer Krankheit

8

Ich bin Arzt, bitte seien Sie freundlich zu mir und meinem grundlegenden Verständnis der Statistik.

Ich habe einen Datensatz, der aus Patienten und ihren Besuchen besteht, und ich habe das Vorhandensein einer bestimmten Art von Maulwurf in ihrer linken und / oder rechten Hand mit {0,1} -Werten (0 = nicht vorhanden und 1 = vorhanden) gekennzeichnet. Der Datensatz sieht folgendermaßen aus:

** Ich habe es entfernt, da die Antworten bereitgestellt werden. Ich kann es auf neue Anfrage senden

Das bedeutet also, dass der Patient A1-001 6 Besuche hatte, bei denen bei allen Besuchen kein Maulwurf in der rechten Hand vorhanden war und bei allen Besuchen außer dem ersten Maulwurf in der linken Hand vorhanden war.

Ich bin daran interessiert, die Wahrscheinlichkeit zu finden, dass eine Hand einen Maulwurf entwickelt, nur unter den Patienten, die in einer Hand einen Maulwurf entwickelt haben, und die Wahrscheinlichkeit, einen Maulwurf in der anderen Hand zu entwickeln (vorausgesetzt, der Patient hatte bereits einen Maulwurf in der anderen Hand). .

Darüber hinaus möchte ich wissen, wie hoch die Wahrscheinlichkeit ist, bei Besuchen bei Patienten, die irgendwann in beiden Händen einen Maulwurf entwickelt haben, einen Maulwurf zu entwickeln

Können Sie mir helfen, diese einfachen Fragen zu modellieren?

laza
quelle
"Außerdem möchte ich wissen, wie hoch die Wahrscheinlichkeit ist, dass bei einem Besuch bei den Patienten, die irgendwann in beiden Händen einen Maulwurf entwickelt haben, ein Maulwurf entsteht." - Aber Sie codieren Maulwürfe pro Hand als vorhanden oder nicht vorhanden, anstatt die Anzahl der Maulwürfe zu zählen. Wenn also ein Patient bereits einen Maulwurf an jeder Hand hat, wie wäre ein zusätzlicher Maulwurf in den Daten sichtbar?
Kodiologe
@Kodiologe Ja, ich interessiere mich nur für die Anwesenheit und nicht für die Anzahl der Maulwürfe. Wenn ein Patient bereits einen Maulwurf an jeder Hand hat, ist es nicht möglich, einen zusätzlichen zu haben: Es ist nur möglich, bei diesem Maulwurf zu bleiben oder der Maulwurf zu verschwinden.
Laza
2
Durch die Bereitstellung des vollständigen Datensatzes kann die Frage geklärt und der Erhalt einer Antwort unterstützt werden.
Todd D
@Todd Ich verstehe nicht, wie die Bereitstellung des gesamten Datensatzes die Lösung des Problems ändert. Ich bin kein Mathematiker, aber ich glaube, dass das Problem auch bei dieser Stichprobengröße klar definiert ist. Ich denke, die Lösung des Problems für N = 3 (Anzahl der Patienten) ist die gleiche wie die Lösung des Problems für N = 100.
laza
1
@laza, Mathematik ist für Mathematiker nicht schwer. Aber Sie stellen ein Problem dar, bei dem es nicht um Mathematik geht, sondern darum zu verstehen, was Sie meinen (deshalb wurde ein größerer Datensatz gefragt) ...... was meinen Sie mit "Ich möchte wissen, was das ist" Wahrscheinlichkeit, bei demselben Besuch einen Maulwurf zu entwickeln, bei den Patienten, die irgendwann in beiden Händen einen Maulwurf entwickelten. " ? Sie haben diese Frage von Kodiologist,
Sextus Empiricus

Antworten:

5

Ich persönlich bin der Meinung, dass sich dies gut für eine Überlebensanalyse eignet.

Sie haben zu Beginn des Zeitraums Menschen ohne Muttermale in einer bestimmten Hand (Ihre Risikopopulation); Sie können diese auswählen und haben Zeitpunkte für die Nachverfolgung und ob sie zensiert wurden oder nicht (ein Maulwurf entwickelt). Dies birgt eine Gefahr für die von Ihnen ausgewählte Kohorte.

Sie können dann eine Gefährdungsquote berechnen (z. B. für die Entwicklung eines rechten Maulwurfs bei Personen mit einem linken Maulwurf zu Studienbeginn im Vergleich zu Personen ohne). Dies könnte in einem Kaplan-Meier-Diagramm ausgedrückt werden und wird mit einem Konfidenzintervall geliefert.

James
quelle
Hallo @James, ich denke, ich werde dieser Lebenslinie eine Chance geben.readthedocs.io/en/latest/… Was denkst du?
Laza
Ich bin sicher, das ist in Ordnung. Obwohl ich Python liebe, bevorzuge ich im Allgemeinen R für Statistiken, aber dies scheint einigermaßen gut unterstützt zu sein.
James
Können Sie mir ein oder zwei Hinweise geben, um die Daten in das richtige Format zu bringen?
Laza
Wie es heißt, müssen Sie wissen, wann Menschen beobachtet wurden und wann sie "starben" (dh einen Maulwurf bekamen) oder wann sie das letzte Mal gesehen wurden, wenn sie keinen Maulwurf bekamen. Verfolgen Sie also für jeden Patienten die Zeit, von der Sie sie zum ersten Mal ohne Maulwurf gesehen haben, bis zu der Zeit, zu der sie den Maulwurf erhalten haben oder zuletzt gesehen wurden. Das ist die 'T'-Spalte im Beispiellink. Die 'E'-Spalte gibt an, ob sie einen Maulwurf haben oder nicht. Sie benötigen dann 1 Zeile pro Patient.
James
Aber was passiert, wenn der Patient beim ersten Besuch sofort einen Maulwurf hatte? Und in einer anderen Frage, warum sind Markov-Ketten Ihrer Meinung nach für dieses Problem nicht geeignet? Es ist ein Übergangsproblem, und nach dem, was ich gelesen habe, scheinen sie sehr geeignet zu sein, um diese Art von Problemen anzugehen.
Laza
0

Hier muss keine Modellierung durchgeführt werden. Alle Ihre Fragen sind einfache bedingte Wahrscheinlichkeiten.

Okay, da die Leute diese Antwort nicht verstanden haben, müssen Sie einige Dinge klären.

Ich bin daran interessiert, die Wahrscheinlichkeit zu finden, dass eine Hand einen Maulwurf entwickelt, nur unter den Patienten, die in einer Hand einen Maulwurf entwickelt haben, und die Wahrscheinlichkeit, einen Maulwurf in der anderen Hand zu entwickeln (vorausgesetzt, der Patient hatte bereits einen Maulwurf in der anderen Hand). .

Meinst du pro besuch Oder dass sie nie einen Maulwurf entwickelt haben? Aus Ihrem Beispiel:

Die Patienten 1 und 3 entwickelten einerseits einen Maulwurf. Patient 1 hat dagegen nie einen Maulwurf entwickelt, Patient 3 jedoch. Sie könnten also argumentieren, dass die Antwort auf Ihre Frage 50% beträgt. Nun könnte man auch argumentieren, dass Patient 1 4 Kontrolluntersuchungen mit 1 Mol und nicht auf der anderen Seite hatte und Patient 3 0 Kontrolluntersuchungen mit 1 Mol und nicht auf der anderen Seite hatte, sodass die Wahrscheinlichkeit 1/5 = 20% betragen könnte. Es hängt davon ab, wie Sie Ihre Frage definieren.

Astel
quelle
Danke für Ihre Antwort. Kannst du mir auch dabei helfen? Ich würde das wirklich zu schätzen wissen. Einige meiner Kollegen sagten mir jedoch, ich solle für die Daten oder die Bayes'schen Statistiken Längsschnittmodelle verwenden. Diese gelten hier wohl nicht?
Laza
3
Dieser Beitrag beantwortet die Frage nicht, da jede Aussage über eine Wahrscheinlichkeit an sich ein Modell ist. Das wichtige Thema ist "Welches Modell ist es (oder sollte es sein)?"
whuber
0

Persönlich denke ich, dass Sie mit dem Studium der verallgemeinerten linearen Multikovarianzmodelle beginnen können : https://cran.r-project.org/web/packages/mcglm/index.html

https://cran.r-project.org/web/packages/mcglm/vignettes/GLMExamples.html

http://cursos.leg.ufpr.br/mcglm4aed/slides/2-mcglm.html#(1)

Diese Modelle sind geeignet, wenn Sie mehr als eine Antwortvariable haben und sie nicht gaußsch sind. Dies ist Ihr Fall, da Sie zwei binäre Variablen haben (Mol oder nicht Mol in jeder Hand). Mit dieser Methode können Sie auch intraindividuelle Abhängigkeiten behandeln, die durch die Längsstruktur gegeben sind. Längsschnitt bedeutet hier wiederholte Messungen für dieselbe Person entlang der Zeit.

Ich denke, die obigen Links helfen Ihnen dabei, eine gute Vorstellung von diesen Techniken zu bekommen, und sie bieten auch die rechnerische Implementierung in R.

Bruna w
quelle