Hinzufügen von Gewichten für stark verzerrte Datensätze in der logistischen Regression

9

Ich verwende eine Standardversion der logistischen Regression, um meine Eingabevariablen an binäre Ausgabevariablen anzupassen.

In meinem Problem sind die negativen Ausgänge (0s) jedoch weitaus größer als die positiven Ausgänge (1s). Das Verhältnis beträgt 20: 1. Wenn ich also einen Klassifikator trainiere, scheinen selbst Merkmale, die stark auf die Möglichkeit einer positiven Ausgabe hinweisen, immer noch sehr niedrige (stark negative) Werte für die entsprechenden Parameter zu haben. Es scheint mir, dass dies passiert, weil es einfach zu viele negative Beispiele gibt, die die Parameter in ihre Richtung ziehen.

Ich frage mich also, ob ich für die positiven Beispiele Gewichte hinzufügen kann (z. B. 20 anstelle von 1). Ist das überhaupt von Vorteil? Und wenn ja, wie soll ich die Gewichte hinzufügen (in den folgenden Gleichungen).

Die Kostenfunktion sieht wie folgt aus:

J.=(- -1/.m)ich=1myLog(h(xθ))+(1- -y)(1- -Log(h(xθ)))

Der Gradient dieser Kostenfunktion (wrt ) ist:θ

Greind=((h(xθ)- -y)'X.)'

Hier ist = Anzahl der Testfälle, = Merkmalsmatrix, = Ausgabevektor, = Sigmoidfunktion, = Parameter, die wir lernen wollen.mxyhθ

Schließlich laufe ich den Gradientenabstieg, um das niedrigstmögliche zu finden . Die Implementierung scheint korrekt zu laufen.J.

Arahant
quelle
Hallo, ich habe genau das gleiche Problem, das Sie beschrieben haben. In meinen Daten sind viele Beispiele negativ und sehr wenige positiv, und für mich ist es wichtiger, das Positive richtig zu klassifizieren, auch wenn dies bedeutet, dass einige Negative falsch klassifiziert werden. Es scheint, dass ich auch die gleichen Methoden anwende wie Sie, da ich die gleichen Kostenfunktions- und Gradientengleichungen verwende. Bisher habe ich einige Tests durchgeführt und die folgenden Ergebnisse erhalten: - Mit 7 Parametern , Trainingsstichprobengröße: 225000 , Teststichprobengröße : 75000 Ergebnisse: 92% Genauigkeit , obwohl in den positiven Fällen nur 11% w
Cartz
1
Was Sie tun, ist eine Verlustfunktion mit maximaler Wahrscheinlichkeit zu verwechseln. Die ungewichtete Mle tut das "Richtige" aus einer inferentiellen Perspektive und spiegelt wider, wie selten das Ergebnis für jede kovariate Spezifikation ist. Sie könnten auch eine Trennung haben - dies würde passieren, dass ein bestimmter Satz von Kovariaten, die die Reaktion in den Trainingsdaten perfekt vorhersagen können - zu großen negativen Werten führen würde.
Wahrscheinlichkeitslogik
2
Die Klassifizierung ist kein gutes Ziel und nicht die Art und Weise, wie die logistische Regression entwickelt wurde. Es ist der Begriff der Klassifizierung, der alle hier aufgeführten Probleme verursacht. Halten Sie sich an die vorhergesagten Wahrscheinlichkeiten und die richtigen Regeln für die Genauigkeitsbewertung
Frank Harrell,
1
@arahant Das stimmt nur teilweise. Eine binäre logistische Regression mit einem Logit-Link ist weiterhin gültig, da die Koeffizienten für Ihre Kovariaten MLE sind und die Auswirkung dieser Variablen auf die Wahrscheinlichkeit von Klasse 1 im Vergleich zu Klasse 0 widerspiegeln. In einem Fall-Kontroll-Design ist der Achsenabschnitt jedoch Immer festgelegt, um das Verhältnis von Klasse 1 zu Klasse 0 widerzuspiegeln, und es ist vollkommen gültig, den Intercept-Term anzupassen, um Klassen entsprechend z. B. einer Kostenfunktion der Fehlklassifizierung oder einem anderen Prozess zuzuweisen, da dies die Koeffizienten nicht ändert auf Variablen.
Sycorax sagt Reinstate Monica
1
Woher kam jemand die Idee, dass ein Cutoff benötigt / gewünscht / wünschenswert ist?
Frank Harrell

Antworten:

8

Y.

Frank Harrell
quelle
Frank, gibt es eine Referenz oder etwas, das dein "15-mal ..." Detail unterstützt? Ich habe in einigen Daten ein ähnliches Ungleichgewicht, für das ich anstelle einer von anderen Forschern entwickelten ROC-Methode die logistische Regression verwende. Ich bin kürzlich auf die Verzerrung bei kleinen Stichproben gestoßen und habe eine Option für die Reduzierung der Verzerrung von Firth als passende Option in meinen Code / mein Paket aufgenommen. Während ich dies für ein Tagebuch schreibe, wäre es nützlich, neben solchen Faustregeln etwas zu zitieren. Entschuldigung, wenn die Referenz Ihr RMS-Buch ist, da es in meinen Regalen steht, aber noch nicht dort nachgesehen hat.
Gavin Simpson
Es gibt Artikel über die Verzerrung kleiner Stichproben und den Wert der Firth-Bestrafung. Ich habe die nicht zur Hand. Zu 15: 1 siehe biostat.mc.vanderbilt.edu/wiki/pub/Main/FrankHarrell/…
Frank Harrell
Danke Frank - die 15: 1-Ausgabe war das, wonach ich am meisten gesucht habe. Ich habe einige Veröffentlichungen über die Voreingenommenheit bei kleinen Stichproben und die Methode von Firth - aber wenn Sie irgendwann etwas zur Hand hätten, wäre ich Ihnen sehr dankbar, wenn Sie mir mitteilen würden, was es war.
Gavin Simpson
3
Nur für den Fall, dass jemand anderes das oben Gesagte falsch lesen sollte, wie ich es zuerst getan habe. Das 20: 1 in der Frage ist das Verhältnis von negativen zu positiven Beobachtungen. Das 15: 1 in Frank Harrells Antwort ist etwas anderes: das Verhältnis von positiven Beobachtungen zu kandidatenunabhängigen Variablen.
Adam Bailey
Eine extreme Verteilung stellt auch ein Problem dar, da die Wahrscheinlichkeit einer quasi vollständigen Trennung erhöht wird, insbesondere wenn Sie kategoriale Prädiktoren haben. Auch hier hilft die Bestrafung.
Wahrscheinlichkeitslogik
3

In solchen Fällen ist es oft besser, anstelle des logistischen Links einen flexiblen Link zu verwenden, der diese Asymmetrie erfassen kann. Zum Beispiel ein Skew-Normal, GEV , Sinh-Arcsinh und die darin enthaltenen Referenzen. Es gibt viele andere, aber ich kann nicht mehr als 2 Links posten.

Tyrion
quelle
Können Sie erklären, dass andere Linkfunktionen besser sind?
DW