Ich habe die Testergebnisse einer Blutuntersuchung, die 2500 Personen viermal im Abstand von sechs Monaten verabreicht wurde. Die Ergebnisse bestehen hauptsächlich aus zwei Messungen der Immunantwort - eine in Gegenwart bestimmter Tuberkulose-Antigene, eine in Abwesenheit. Derzeit wird jeder Test entweder positiv oder negativ bewertet, basierend auf dem Unterschied zwischen der Antigenantwort und der Nullantwort (mit der Idee, dass Sie wahrscheinlich irgendwann dem Bakterium selbst ausgesetzt waren, wenn Ihr Immunsystem auf TB-Antigene reagiert ). Im Wesentlichen geht der Test davon aus, dass die Verteilung der Null- und TB-Antworten einer nicht exponierten Person grundsätzlich identisch sein sollte, während bei einer Person mit TB-Exposition TB-Antworten aus einer anderen Verteilung (mit höheren Werten) stammen. Vorbehalt: Die Reaktionen sind sehr, sehr ungewöhnlich und die Werte klumpen sowohl am natürlichen Boden als auch an der vom Instrumenten abgeschnittenen Decke.
In dieser longitudinalen Umgebung scheint es jedoch ziemlich klar zu sein, dass wir "falsch positive" (ich fürchte, kein tatsächlicher Goldstandard für latente Tuberkulose) erhalten, die durch (typischerweise kleine) Schwankungen der Antigen- und Null-Reaktionen verursacht werden. Während dies in einigen Situationen schwer zu vermeiden ist (Sie haben möglicherweise nur eine Chance, jemanden zu testen), gibt es viele Situationen, in denen Menschen jedes Jahr oder so routinemäßig auf TB getestet werden - in den USA ist dies bei Beschäftigten im Gesundheitswesen üblich. das Militär, Obdachlose, die in Notunterkünften bleiben, und so weiter. Es scheint eine Schande, frühere Testergebnisse zu ignorieren, da die vorhandenen Kriterien zufällig einen Querschnitt aufweisen.
Ich denke , was ich tun möchte, ist das, was ich grob als longitudinale Mischungsanalyse verstehe. Ähnlich wie bei den Querschnittskriterien möchte ich in der Lage sein, die Wahrscheinlichkeit zu schätzen, dass die TB- und Null-Antworten einer Person aus derselben Verteilung stammen. Diese Schätzung enthält jedoch vorherige Testergebnisse sowie Informationen aus der Stichprobe als ein Ganzes (z. B. kann ich die stichprobenweite Verteilung der Variabilitäten innerhalb eines Individuums verwenden, um meine Schätzungen der Verteilung von Null oder TB eines bestimmten Individuums zu verbessern?). Die geschätzte Wahrscheinlichkeit müsste sich natürlich im Laufe der Zeit ändern können, um die Möglichkeit einer Neuinfektion zu berücksichtigen.
Ich habe mich total verdreht, als ich versucht habe, auf ungewöhnliche Weise darüber nachzudenken, aber ich denke, diese Konzeptualisierung ist so gut wie jede andere, die ich mir einfallen lassen werde. Wenn etwas keinen Sinn ergibt, können Sie gerne um Klärung bitten. Wenn mein Verständnis der Situation falsch erscheint, können Sie es mir gerne mitteilen. Vielen Dank für deine Hilfe.
Antwort auf Srikant: Es handelt sich um eine latente Klassifizierung (TB-infiziert oder nicht) unter Verwendung der beiden kontinuierlichen (aber nicht normalen und verkürzten) Testergebnisse. Im Moment erfolgt diese Klassifizierung mit einem Cutoff (in seiner vereinfachten Form TB - nil> .35 -> positiv). Bei Testergebnissen, die als (Null, TB, Ergebnis) dargestellt werden, sind die grundlegenden Archetypen *:
Wahrscheinlich negativ: (0,06, 0,15, -) (0,24, 0,23, -) (0,09, 0,11, -) (0,16, 0,15, -)
Wahrscheinlich positiv: (0,05, 3,75, +) (0,05, 1,56, +) (0,06 , 5,02, +) (0,08, 4,43, +)
Wobbler: (0,05, 0,29, -) (0,09, 0,68, +) (0,08, 0,31, -) (0,07, 0,28, -)
Das Positive beim zweiten Test für den Wobbler ist ziemlich eindeutig eine Aberration, aber wie würden Sie das modellieren? Während eine meiner Überlegungen darin besteht, den "wahren Unterschied" zwischen TB und Null zu jedem Zeitpunkt mithilfe eines Mehrebenenmodells mit wiederholten Messungen abzuschätzen, kam mir der Gedanke, dass ich wirklich wissen möchte, ob die Person keine Antwort und keine TB-Antwort hat werden aus derselben Verteilung gezogen oder wenn ihr Immunsystem die TB-Antigene erkennt und aktiviert, was zu einer erhöhten Reaktion führt.
Was einen anderen positiven Test als eine Infektion verursachen könnte: Ich bin mir nicht sicher. Ich vermute, dass die Ergebnisse normalerweise nur innerhalb der Person variieren, aber es gibt sicherlich die Möglichkeit anderer Faktoren. Wir haben zu jedem Zeitpunkt Fragebögen, aber ich habe diese noch nicht zu sehr untersucht.
* Vorgefertigte, aber veranschaulichende Daten
quelle
Antworten:
Dies ist keine vollständige Antwort, aber ich hoffe, es gibt Ihnen einige Ideen, wie Sie die Situation auf kohärente Weise modellieren können.
Annahmen
Die Werte am unteren Ende der Skala folgen einer von unten abgeschnittenen Normalverteilung.
Die Werte am oberen Ende der Skala folgen einer von oben abgeschnittenen Normalverteilung.
(Hinweis: Ich weiß, dass Sie gesagt haben, dass die Daten nicht normal sind, aber ich gehe davon aus, dass Sie sich auf die Verteilung aller Werte beziehen, während sich die obigen Annahmen auf die Werte am unteren und oberen Ende der Skala beziehen.)
Der zugrunde liegende Zustand einer Person (unabhängig davon, ob sie an TB leidet oder nicht) folgt einer Markov-Kette erster Ordnung.
Modell
Lassen:
Die Punkte 4 und 5 erfassen die Idee, dass die Reaktion einer Person auf den NILL-Test nicht vom Krankheitsstatus abhängt.
Die Punkte 6, 7 und 8 erfassen die Idee, dass die Reaktion einer Person auf den TB-Test vom Krankheitsstatus abhängt .
Mit anderen Worten,
Ihre Testkriterien besagen, dass:
Wie Sie jedoch aus der Struktur des Modells ersehen können, können Sie die Grenzwerte tatsächlich parametrisieren und das gesamte Problem auf das ändern, was Ihre Grenzwerte sein sollten, um Patienten genau zu diagnostizieren. Daher scheint das Wobbler-Problem eher ein Problem bei der Auswahl der Grenzwerte zu sein als bei irgendetwas anderem.
Um die „richtigen“ Grenzwerte auszuwählen, können Sie historische Daten über Patienten mit TB-Infektion verwenden und die resultierenden Parameter des obigen Setups schätzen. Sie können einige Kriterien wie die Anzahl der Patienten, die korrekt als TB eingestuft wurden oder nicht, als Messgröße verwenden, um das „beste“ Modell zu ermitteln. Der Einfachheit halber könnte man annehmen, dass ein zeitinvarianter Parameter ist, der in Abwesenheit von Epidemien usw. vernünftig erscheint.p(t)
Hoffe das ist nützlich.
quelle
Tricky Matt, so viele Probleme mit Statistiken in der realen Welt gibt es!
Ich würde anfangen, Ihre Studienziele zu definieren.
Ohne Kenntnis des wahren Status der Probanden wird es schwierig sein, die Wahrscheinlichkeitsverteilungen für den TB + - und TB- -Test zu definieren. Haben Sie Fragebögen zu früheren TB-Infektionen (oder besser zu Krankengeschichten)? Außerdem teste ich TB + immer noch aufgrund einer Immunisierung in der Kindheit - vor einigen Jahrzehnten -, sodass frühere Impfungen in Betracht gezogen werden müssen.
Mir scheint, Ihre eigentliche Frage lautet: Beeinflussen wiederholte TB-Tests das Testergebnis?
Es lohnt sich, eine Kopie von Peter Diggles Analyse der Längsschnittdaten zu erhalten .
Führen Sie eine explorative Datenanalyse durch, insbesondere Streudiagramm-Matrizen der Null-Testergebnisse zu jedem Zeitpunkt gegeneinander und der TB-Testergebnisse zu jedem Zeitpunkt gegeneinander. und die TB gegen Null-Streudiagramme (zu jedem Zeitpunkt). Nehmen Sie auch die Unterschiede (TB-Test - Null-Test) und machen Sie die Streudiagramm-Matrizen. Versuchen Sie, die Daten zu transformieren, und wiederholen Sie diese - ich stelle mir vor, dass log (TB) - log (Nil) hilfreich sein kann, wenn die TB-Ergebnisse im Vergleich zu Nil sehr groß sind. Suchen Sie in der Korrelationsstruktur nach linearen Beziehungen.
Ein anderer Ansatz wäre, das definierte Testergebnis (positiv / negativ) zu nehmen und dieses logitudinal mit einem nichtlinearen Mischeffektmodell (logit link) zu modellieren. Wechseln einige Personen zwischen dem Testen von TB + und TB- und hängt dies mit ihrem Null-Test, TB-Test, TB-Null oder einer Transformation der Testergebnisse zusammen?
quelle