Ich betrachte einige logistische Regressionsprobleme. ("regulär" und "bedingt").
Im Idealfall möchte ich jeden der Eingabefälle gewichten, damit sich der glm mehr darauf konzentriert, die höher gewichteten Fälle korrekt vorherzusagen, auf Kosten einer möglichen Fehlklassifizierung der niedriger gewichteten Fälle.
Sicher wurde dies schon einmal gemacht. Kann mich jemand auf relevante Literatur hinweisen (oder möglicherweise eine modifizierte Wahrscheinlichkeitsfunktion vorschlagen?)
Vielen Dank!
Antworten:
glm
enthältweights
genau zu diesem Zweck einen Parameter . Sie stellen ihm einen Vektor von Zahlen auf jeder Skala zur Verfügung, der die gleiche Anzahl von Gewichten enthält, wie Sie Beobachtungen haben.Mir ist erst jetzt klar, dass Sie vielleicht nicht sprechen
R
. Wenn nicht, möchten Sie vielleicht.quelle
glm
(wahrscheinlich) eine C-Implementierung zu finden.Wenn Sie Zugriff auf SAS haben, ist dies mit PROC GENMOD sehr einfach zu bewerkstelligen. Solange jede Beobachtung eine Gewichtsvariable hat, können Sie mithilfe der Gewichtsangabe die Art von Analyse durchführen, nach der Sie suchen. Ich habe es meistens mit Inverse-Probability-of-Treatment-Gewichten verwendet, aber ich sehe keinen Grund, warum Sie Ihren Daten keine Gewichte zuweisen konnten, um bestimmte Arten von Fällen hervorzuheben, solange Sie sicherstellen, dass Ihr N konstant bleibt. Sie sollten auch sicherstellen, dass eine Art ID-Variable enthalten ist, da die hochgewichteten Fälle technisch gesehen wiederholte Beobachtungen sind. Beispielcode mit einer Beobachtungs-ID von 'id' und einer Gewichtsvariablen von 'wt':
quelle