Ich habe einen Datensatz, in dem die Ereignisrate sehr niedrig ist (40.000 von ). Ich wende hier eine logistische Regression an. Ich hatte eine Diskussion mit jemandem, bei der sich herausstellte, dass eine logistische Regression keine gute Verwirrungsmatrix für solche Daten mit niedriger Ereignisrate ergibt. Aufgrund des Geschäftsproblems und der Art und Weise, wie es definiert wurde, kann ich die Anzahl der Ereignisse nicht von 40.000 auf eine größere Zahl erhöhen, obwohl ich damit einverstanden bin, dass ich einige nicht ereignisbasierte Populationen löschen kann.
Bitte teilen Sie mir Ihre Ansichten dazu mit, insbesondere:
- Hängt die Genauigkeit der logistischen Regression von der Ereignisrate ab oder gibt es eine empfohlene Mindestereignisrate?
- Gibt es eine spezielle Technik für Daten mit niedriger Ereignisrate?
- Würde das Löschen meiner nicht aufgetretenen Population für die Genauigkeit meines Modells gut sein?
Ich bin neu in der statistischen Modellierung, bitte verzeihen Sie meine Unwissenheit und sprechen Sie alle damit verbundenen Probleme an, über die ich nachdenken könnte.
Vielen Dank,
Antworten:
Ich beantworte Ihre Fragen in abweichender Reihenfolge:
Jede Beobachtung liefert einige zusätzliche Informationen über den Parameter (über die Wahrscheinlichkeitsfunktion). Daher macht das Löschen von Daten keinen Sinn, da Sie lediglich Informationen verlieren würden.
Technisch gesehen ja: Eine seltene Beobachtung ist viel aussagekräftiger (dh die Wahrscheinlichkeitsfunktion ist steiler). Wenn Ihr Ereignisverhältnis 50:50 beträgt, erhalten Sie viel engere Konfidenzbereiche (oder glaubwürdige Intervalle, wenn Sie Bayesianer sind) für dieselbe Datenmenge . Allerdings können Sie Ihre Ereignisrate nicht auswählen (es sei denn, Sie führen eine Fall-Kontroll-Studie durch), sodass Sie mit dem auskommen müssen, was Sie haben.
Das größte Problem, das auftreten kann, ist die perfekte Trennung : Dies geschieht, wenn eine Kombination von Variablen alle Nichtereignisse (oder alle Ereignisse) ergibt. In diesem Fall nähern sich die Schätzungen der Maximalwahrscheinlichkeitsparameter (und ihre Standardfehler) der Unendlichkeit (obwohl dies normalerweise der Fall ist) der Algorithmus stoppt vorher). Es gibt zwei mögliche Lösungen:
a) Entfernen von Prädiktoren aus dem Modell: Dadurch wird Ihr Algorithmus zwar konvergieren, Sie entfernen jedoch die Variable mit der höchsten Aussagekraft. Dies ist also nur sinnvoll, wenn Ihr Modell anfangs überangepasst war (z. B. wenn zu viele komplizierte Interaktionen angepasst wurden). .
b) eine Art Bestrafung anwenden, beispielsweise eine vorherige Verteilung, durch die die Schätzungen auf vernünftigere Werte zurückgeführt werden.
quelle
glm
Funktion. Im schlimmsten Fall ist das, als würde man einen Teil jedes heruntergewichteten Datenpunkts wegwerfen, aber es ist nicht wirklich dasselbe. 2) Wie gesagt, mit dieser Entscheidung sind Kompromisse verbunden. Dies ist wahrscheinlich am sinnvollsten in Kontexten, in denen die Population, aus der eine Stichprobe erstellt wird, nicht genau definiert ist und die tatsächliche Ereignisrate zunächst nicht aussagekräftig ist. Ich würde es auf alle Fälle nicht empfehlen.Es gibt eine bessere Alternative zum Löschen von Nichtereignissen für zeitliche oder räumliche Daten: Sie können Ihre Daten über Zeit / Raum hinweg aggregieren und die Anzahl als Poisson modellieren. Wenn es sich bei Ihrem Ereignis beispielsweise um "Vulkanausbruch am Tag X" handelt, kommt es an nicht vielen Tagen zu einem Vulkanausbruch. Wenn Sie jedoch die Tage in Wochen oder Monate gruppieren, z. B. "Anzahl der Vulkanausbrüche im Monat X", haben Sie die Anzahl der Ereignisse reduziert, und mehr Ereignisse haben Werte ungleich Null.
quelle