Angenommen, ich erstelle ein logistisches Regressionsmodell, bei dem die abhängige Variable binär ist und die Werte oder 1 annehmen kann . Die unabhängigen Variablen seien x 1 , x 2 , . . . , x m - es gibt m unabhängige Variablen. Nehmen wir an, für die k- te unabhängige Variable zeigt die bivariate Analyse einen U-förmigen Trend - dh wenn ich x k in 20 gruppiere Bins, die jeweils ungefähr die gleiche Anzahl von Beobachtungen enthalten und die "schlechte Rate" für jeden Bin berechnen - # Beobachtungen mit y = 0 / Gesamtbeobachtungen in jedem Bin - dann erhalte ich eine U-förmige Kurve.
Meine Fragen sind:
- Kann ich direkt als Eingabe verwenden, während ich die Beta-Parameter schätze? Werden statistische Annahmen verletzt, die zu erheblichen Fehlern bei der Schätzung der Parameter führen können?
- Ist es notwendig, diese Variable durch eine Transformation (log, Quadrat, Produkt mit sich selbst usw.) zu "linearisieren"?
regression
estimation
logistic
sas
Mozan Sykol
quelle
quelle
Antworten:
Sie möchten eine flexible Formulierung verwenden, die die Nichtlinearität automatisch erfasst, z. B. eine Version eines verallgemeinerten additiven Modells . Die Wahl eines armen Mannes ist ein Polynom , x 2 k , ..., x p k k , aber solche Polynome erzeugen schreckliche Überschwingungen am Ende des Bereichs ihrer jeweiligen Variablen. Eine viel bessere Formulierung wäre die Verwendung von (kubischen) B-Splines (siehe eine zufällige Intro-Notiz von der ersten Seite von Google hier und ein gutes Buch hier ). B-Splines sind eine Folge lokaler Buckel:xk x2k xpkk
http://ars.sciencedirect.com/content/image/1-s2.0-S0169743911002292-gr2.jpg
Die Höhe der Buckel wird aus Ihrer (linearen, logistischen, anderen GLM-) Regression bestimmt, da die von Ihnen angepasste Funktion einfach ist
quelle
quelle
Eine andere praktikable Alternative, die der Modellierbetrieb, für den ich arbeite, routinemäßig einsetzt, besteht darin, die kontinuierlichen unabhängigen Variablen zu bündeln und die "schlechte Rate" zu ersetzen. Dies erzwingt eine lineare Beziehung.
quelle
disco
Paket. Ich habe meinen eigenen Algorithmus erstellt, der eine kontinuierliche Variable basierend auf dem Informationswert rekursiv aufteilt. Ich habe es hier in ein R-Paket eingefügt : github.com/Zelazny7/binnr (work in progress!). Ich würde auch das Beweisgewicht anstelle des Mittelwerts ersetzen. In Kombination mit der LASSO-Regression sind die Ergebnisse fantastisch!binnr
Algorithmus mit den CRANs vergleichensmbinning
?