Lassen Sie mich zunächst einmal sagen, dass ich vor 38 Jahren einen Statistikkurs in der Ingenieurschule hatte. Also fliege ich hier blind.
Ich habe die Ergebnisse von im Wesentlichen 18 separaten diagnostischen Tests für eine Krankheit. Jeder Test ist binär - ja / nein, ohne Schwellenwert, der angepasst werden kann, um den Test "abzustimmen". Für jeden Test habe ich angeblich gültige Daten zu wahr / falsch positiven / negativen Ergebnissen im Vergleich zum "Goldstandard", die Spezifitäts- und Sensitivitätszahlen ergeben (und alles andere, was Sie aus diesen Daten ableiten können).
Natürlich hat kein einzelner Test eine ausreichende Spezifität / Empfindlichkeit, um alleine verwendet zu werden, und wenn Sie die Ergebnisse aller Tests "mustern", gibt es häufig keinen offensichtlichen Trend.
Ich frage mich, wie diese Zahlen am besten so kombiniert werden können, dass ein Endergebnis erzielt wird, das (hoffentlich) zuverlässiger ist als jeder einzelne Test. Ich habe mir bisher die Technik ausgedacht, die Besonderheiten von TRUE-Tests mit zu kombinieren
spec_combined = 1 - (1 - spec_1) * (1 - spec_2) * ... (1 - spec_N)
und Kombinieren der Empfindlichkeiten der FALSE-Tests auf die gleiche Weise. Das Verhältnis
(1 - sens_combined) / (1 - spec_combined)
dann scheint sich ein einigermaßen gutes "Endergebnis" zu ergeben, wobei ein Wert über 10 eine zuverlässige WAHR und ein Wert unter 0,1 eine zuverlässige FALSCH ist.
Diesem Schema fehlt jedoch jede echte Genauigkeit, und für einige Kombinationen von Testergebnissen scheint es eine Antwort zu liefern, die nicht intuitiv ist.
Gibt es eine bessere Möglichkeit, die Testergebnisse mehrerer Tests aufgrund ihrer Spezifitäten und Empfindlichkeiten zu kombinieren? (Einige Tests haben eine Spezifität von 85 und eine Empfindlichkeit von 15, andere Tests sind genau das Gegenteil.)
OK, mein Kopf tut weh!
Angenommen, ich habe Tests 1-4 mit Sensitivitäten / Spezifitäten (in%):
- 65/50
- 25/70
- 30/60
- 85/35
Die Tests 1 und 2 sind positiv, 3 und 4 negativ.
Die mutmaßliche Wahrscheinlichkeit, dass 1 falsch positiv ist, wäre (1 - 0,5) und für 2 (1 - 0,7), sodass die Wahrscheinlichkeit, dass beide falsch positiv sind, 0,5 x 0,3 = 0,15 wäre.
Die mutmaßliche Wahrscheinlichkeit, dass 3 und 4 falsch negativ sind, wäre (1 - 0,3) und (1 - 0,85) oder 0,7 x 0,15 = 0,105.
(Wir werden für den Moment die Tatsache ignorieren, dass sich die Zahlen nicht summieren.)
Die angenommenen Wahrscheinlichkeiten, dass 1 und 2 echte Positive sind, sind jedoch 0,65 und 0,25 = 0,1625, während die angenommenen Wahrscheinlichkeiten, dass 3 und 4 echte Negative sind, 0,6 und 0,35 = 0,21 sind.
Jetzt können wir zwei Fragen stellen:
- Warum addieren sich die Zahlen nicht (oder kommen sogar nahe)? (Die von mir verwendeten Sens / Spec-Nummern stammen aus dem "echten Leben".)
- Wie soll ich entscheiden, welche Hypothese (höchstwahrscheinlich) wahr ist (in diesem Beispiel scheint sie für beide Berechnungen "negativ" zu sein, aber ich bin nicht sicher, ob dies immer der Fall ist) und was kann ich für eine "Gütezahl" verwenden? "um zu entscheiden, ob das Ergebnis" signifikant "ist?
Mehr Info
Dies ist ein Versuch, ein bestehendes "Gewichtungs" -Schema zu verfeinern und zu erweitern, das vollständig "künstlerischer" Natur ist (dh nur aus einem ** herausgezogen wird). Das aktuelle Schema basiert im Wesentlichen auf den Zeilen "Wenn zwei der ersten drei positiv sind und wenn zwei der nächsten vier und eine der nächsten beiden positiv sind." (Das ist natürlich ein etwas vereinfachtes Beispiel.) Die verfügbaren Statistiken unterstützen dieses Gewichtungsschema nicht - selbst mit einem groben Gewichtungsalgorithmus, der auf den gemessenen Statistiken basiert, habe ich signifikant unterschiedliche Antworten gefunden. Aber ohne eine strenge Methode zur Bewertung der Statistiken habe ich keine Glaubwürdigkeit.
Außerdem entscheidet das aktuelle Schema nur über positiv / negativ, und ich muss in der Mitte einen (statistisch gültigen) "mehrdeutigen" Fall erstellen, sodass eine gewisse Gütezahl erforderlich ist.
Neueste
Ich habe einen mehr oder weniger "reinen" Bayes'schen Inferenzalgorithmus implementiert, und nachdem ich einige Nebenprobleme wiederholt habe, scheint es ziemlich gut zu funktionieren. Anstatt aus Spezifitäten und Sensitivitäten zu arbeiten, leite ich die Formeleingaben direkt aus den wahr-positiven / falsch-positiven Zahlen ab. Leider bedeutet dies, dass ich einige der Daten mit besserer Qualität nicht verwenden kann, die nicht so dargestellt werden, dass diese Zahlen extrahiert werden können, aber der Algorithmus ist viel sauberer und ermöglicht die Änderung der Eingaben mit viel weniger Handberechnung. und es scheint ziemlich stabil zu sein und die Ergebnisse stimmen ziemlich gut mit "Intuition" überein.
Ich habe mir auch einen "Algorithmus" (im rein programmierbaren Sinne) ausgedacht, um die Wechselwirkungen zwischen voneinander abhängigen Beobachtungen zu handhaben. Anstatt nach einer umfassenden Formel zu suchen, behalte ich stattdessen für jede Beobachtung einen Grenzwahrscheinlichkeitsmultiplikator, der geändert wird, wenn frühere Beobachtungen verarbeitet werden, basierend auf einer einfachen Tabelle: "Wenn Beobachtung A wahr ist, ändern Sie die Grenzwahrscheinlichkeit von Beobachtung B um a Faktor 1,2 ", z. Auf keinen Fall elegant, aber brauchbar, und es scheint über eine Reihe von Eingängen einigermaßen stabil zu sein.
(Ich werde das Kopfgeld an das vergeben, was ich für den hilfreichsten Beitrag in ein paar Stunden halte. Wenn also jemand ein paar Licks machen möchte, muss er es tun.)
quelle
Antworten:
"Ich frage mich, wie diese Zahlen am besten so kombiniert werden können, dass ein Endergebnis erzielt wird, das (hoffentlich) zuverlässiger ist als jeder einzelne Test." Eine sehr gebräuchliche Methode besteht darin, Cronbachs Alpha zu berechnen und allgemeiner eine sogenannte "Standard" -Versicherheitsanalyse durchzuführen. Dies würde zeigen, inwieweit eine bestimmte Punktzahl mit dem Mittelwert der 17 anderen Punktzahlen korreliert; Welche Testergebnisse lassen sich am besten von der Skala streichen? und wie hoch die Zuverlässigkeit der internen Konsistenz sowohl bei allen 18 als auch bei einer bestimmten Teilmenge ist. Nun, einige Ihrer Kommentare scheinen darauf hinzudeuten, dass viele dieser 18 nicht korreliert sind; Wenn dies zutrifft, erhalten Sie möglicherweise eine Skala, die nur aus wenigen Tests besteht.
BEARBEITEN NACH KOMMENTAR: Ein anderer Ansatz basiert auf der Idee, dass es einen Kompromiss zwischen interner Konsistenz und Gültigkeit gibt. Je weniger korreliert Ihre Tests sind, desto besser ist ihre Inhaltsabdeckung, was die Gültigkeit des Inhalts verbessert (wenn nicht sogar die Zuverlässigkeit). Wenn Sie also in diese Richtung denken, würden Sie Cronbachs Alpha und die damit verbundenen Indikatoren für die Korrelation zwischen Element und Gesamtmenge ignorieren und stattdessen a priori argumentieren, um die 18 Tests zu einer Skala zu kombinieren. Hoffentlich würde eine solche Skala in hohem Maße mit Ihrem Goldstandard korrelieren.
quelle
Nehmen wir zur Vereinfachung an, dass Sie nur zwei Diagnosetests haben. Sie möchten berechnen
Sie haben vorgeschlagen, dass die Ergebnisse dieser Tests unabhängig sind und von einer Person abhängig sind, die an einer Krankheit leidet. Wenn ja, dann
Wobei die Empfindlichkeit von Test .Pr ( T.ich∣ Krankheit ) ich
Wo
und ist für Test .1 - Spezifität iPr ( T.ich∣ Keine Krankheit ) 1 - Spezifität ich
quelle