Wie prognostizieren Sie eine Antwortkategorie anhand eines ordinalen logistischen Regressionsmodells?

13

Ich möchte ein Gesundheitsproblem vorhersagen. Ich habe 3 Ergebniskategorien, die sortiert sind: "normal", "mild" und "schwer". Ich möchte dies aus zwei Prädiktorvariablen vorhersagen, einem Testergebnis (eine kontinuierliche Intervall-Kovariate) und einer Familiengeschichte mit diesem Problem (ja oder nein). In meiner Stichprobe liegen die Wahrscheinlichkeiten bei 55% (normal), 35% (mild) und 10% (schwer). In diesem Sinne konnte ich immer nur "normal" voraussagen und in 55% der Fälle Recht behalten, obwohl dies mir keine Informationen über einzelne Patienten geben würde. Ich passe das folgende Modell:

der Schnittpunkt für (y1)^=-2.18der Schnittpunkt für (y2)^=-4.27β^test=0,60β^feinmichly hichstÖry=1,05

Angenommen, es gibt keine Interaktion und alles ist in Ordnung mit dem Modell. Die Konkordanz c beträgt 60,5%, was meines Erachtens die maximale Vorhersagegenauigkeit ist, die das Modell bietet.

Ich stoße auf zwei neue Patienten mit folgenden Daten: 1. Test = 3,26, Familie = 0; 2. test = 2.85, family = 1. Ich möchte ihre Prognose vorhersagen. Verwenden Sie die Formel: (und dann die Unterschiede zwischen den kumulativen Wahrscheinlichkeiten nehmen), kann ich die Wahrscheinlichkeitsverteilung über die Antwortkategorien auf dem Modell bedingten berechnen. R-Code (nb, aufgrund von Rundungsproblemen stimmt die Ausgabe nicht perfekt überein):

exp(-Xβ-cutPÖichnt)(1+exp(-Xβ-cutPÖichnt))
cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X    <- rbind(c(3.26, 0), c(2.85, 1))

pred_cat1      <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3      <- 1-pred_cat2.temp
pred_cat2      <- pred_cat2.temp-pred_cat1

predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)

Das heißt: 1,0 = 55,1%, 1 = 35,8%, 2 = 9,1%; und 2,0 = 35,6%, 1 = 46,2%, 2 = 18,2%. Meine Frage ist, wie gehe ich von der Wahrscheinlichkeitsverteilung zu einer vorhergesagten Antwortkategorie über?

Ich habe anhand der Beispieldaten verschiedene Möglichkeiten ausprobiert, deren Ergebnis bekannt ist. Wenn ich nur Max (Wahrscheinlichkeiten) wähle, ist die Genauigkeit 57%, eine leichte Verbesserung gegenüber der Null, aber unterhalb der Konkordanz. Darüber hinaus wird bei diesem Ansatz in der Stichprobe nie "schwer" ausgewählt, was ich wirklich wissen möchte. Ich versuchte es mit einem Bayes'schen Ansatz, indem ich Null- und Modellwahrscheinlichkeiten in Quoten umwandelte und dann das Maximum (Odds Ratio) auswählte. Dies wählt gelegentlich "schwerwiegend" aus, ergibt jedoch eine schlechtere Genauigkeit von 49,5%. Ich habe auch versucht, eine Summe der Kategorien nach Wahrscheinlichkeiten und Rundungen zu berechnen. Dies wählt wiederum nie "schwerwiegend" aus und hat eine geringe Genauigkeit von 51,5%.

Wie lautet die Gleichung, die die obigen Informationen aufnimmt und eine optimale Genauigkeit ergibt (60,5%)?

gung - Wiedereinsetzung von Monica
quelle

Antworten:

11

Y.rmslrmpredict.lrm

Frank Harrell
quelle
1
Danke für Ihre Hilfe. Ich vermutete, dass die niedrige Frequenz von schwerwiegend ein Teil des Problems war. Ich denke, mein Roh-Y, 0 1 2, ist nicht ausreichend gleich Intervall. Ich sammle mein Ziel ist falsch. Leider habe ich denke ich dass ich wissen möchte, in welche Kategorie ein neuer Patient fällt / nicht vollständig versteht, was mein Ziel sein sollte. Ist es möglich, ein bisschen mehr Einblick zu gewähren? (Ich vermute, dass der Lebenslauf nicht das Forum für eine vollständige Lektion ist. Oder wissen Sie, wo ich etwas über dieses Problem erfahren kann? Ich habe die Abschnitte in Agrestis Intro & Hosmer & Lemeshows Logistik gelesen, aber ohne Erfolg.)
gung - Wiedereinsetzung von Monica
1
Das Ziel wird durch die notwendige Entscheidung oder durch das Thema bestimmt. Wenn Sie das endgültige Ziel angeben, kann ich dies möglicherweise kommentieren.
Frank Harrell
Tut mir leid wegen meiner Unklarheit, es scheint auch ein Problem gewesen zu sein. Gegenwärtig möchte ich das Ergebnis für neue Fälle vorhersagen können. Langfristig möchte ich ord log reg besser verstehen, z. B. wie erhält man Residuen, wenn man keine vorhergesagten Kategorien hat? Ich habe festgestellt, dass eine etwas bessere Genauigkeit möglich ist, aber ich weiß nicht, wie ich sie erhalten soll. Ich bin sicher, Sie haben nicht die Zeit, alles zu erklären, aber weder Agresti noch H & L äußern sich zu Vorhersagen oder Residuen usw., und ich konnte nichts mit Google finden. Also habe ich im Lebenslauf nachgefragt. Ich bedanke mich für Ihre fortgesetzte Unterstützung.
gung - Wiedereinsetzung von Monica
Y.jj
-1

Die Konkordanz wird durch Überprüfen der mittleren Punktzahl und nicht der maximalen Punktzahl definiert.

Für Ihre Beispiele beträgt der Mittelwert für 1 also 0 * 55,1% + 1 * 35,8% + 2 * 9,1% = 0,54, und 2 beträgt (nach ähnlichen Berechnungen) 0,826.

Diesen Wert sollten Sie vergleichen, um die Konkordanz oder andere Zuordnungsstatistiken zu erhalten.

Ref - http://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_logistic_sect042.htm

KalEl
quelle
3
Y.XβDxy
2
PS: Beachten Sie, dass die SAS-Dokumentation, bei der es sich um eine Neufassung meiner ursprünglichen Dokumentation für den Vorgänger handelt, den SAS PROC LOGISTich vor vielen Jahren geschrieben habe, jetzt falsch ist und die Formel für den Mittelwert falsch ist, es sei dennY.besteht aus aufeinanderfolgenden ganzen Zahlen.
Frank Harrell