Wie kombiniere ich Ergebnisse logistischer Regression und zufälliger Gesamtstruktur?

12

Ich bin neu im maschinellen Lernen. Ich habe logistische Regression und zufällige Gesamtstruktur auf denselben Datensatz angewendet. Ich erhalte also eine variable Wichtigkeit (absoluter Koeffizient für die logistische Regression und variable Wichtigkeit für zufällige Wälder). Ich denke, die beiden zu kombinieren, um eine endgültige variable Bedeutung zu erhalten. Kann jemand seine / ihre Erfahrungen teilen? Ich habe das Absacken, Boosten und Modellieren von Ensembles überprüft, aber sie sind nicht das, was ich brauche. Sie kombinieren eher Informationen für dasselbe Modell über Replikate hinweg. Was ich suche, ist das Ergebnis mehrerer Modelle zu kombinieren.

user1946504
quelle
5
Ensemble-Modellierung kann auch Modelle kombinieren. Schauen Sie sich zum Beispiel die Mehrheitsabstimmung an. Siehe auch Stapeln.
Pat
4
Tatsächlich ist die Verwendung der Koeffizientengröße kein guter Weg, um die "variable Bedeutung" bei der logistischen Regression zu bestimmen. Selbst wenn Sie standardisierte Koeffizienten betrachten, ist dies keine gute Methode. Warum? Denken Sie daran, dass die Koeffizienten nur Schätzungen sind und mit ihnen ein Fehler verbunden ist. Das Auswählen von Koeffizienten nach Größe bedeutet, dass Sie diejenigen auswählen, für die Sie die Koeffizientengröße überschätzt haben, und diejenigen löschen, für die Sie die Koeffizientengröße unterschätzt haben.
user765195

Antworten:

12

Dies hängt wahrscheinlich davon ab, wofür Sie variable Wichtigkeiten verwenden möchten. Soll es als Kriterium für die Merkmalsauswahl für ein drittes Klassifizierungsmodell verwendet werden? In diesem Fall könnten Sie versuchen, einen gewichteten Durchschnitt der variablen Wichtigkeiten (möglicherweise nach Normalisierung jedes einzelnen variablen Wichtigkeitsvektors auf Längeneinheit) für verschiedene Werte und das Durchschnittsgewicht zu berechnen und dann den Wert zu ermitteln, der die beste kreuzvalidierte Punktzahl für das Finale ergibt Modell.

In Bezug auf die Kombination des Ergebnisses des logistischen Regressionsmodells und des zufälligen Gesamtstrukturmodells (ohne Berücksichtigung variabler Wichtigkeiten) ist der folgende Blog-Beitrag sehr informativ und zeigt, dass eine einzelne Mittelung der Ausgabe eine einfache, aber sehr effektive Ensemble-Methode für Regressionsmodelle ist.

Ogrisel
quelle
1
Danke für Ihre Antwort. Der Blog, den Sie erwähnt haben, ist eine wirklich interessante Studie. Ich glaube, ich habe die Idee. Das einzige Problem ist seine Kreuzentropieformel. Bei dem, den ich online gefunden habe, scheint es anders zu sein. Seine Verwendung: cross.entropy <- Funktion (Ziel, vorhergesagt) {vorhergesagt = pmax (1e-10, pmin (1-1e-10, vorhergesagt)) - Summe (Ziel * log (vorhergesagt) + (1 - Ziel) * log (1 - vorhergesagt))}
user1946504
2
und als ich die gleiche Idee auf meinen eigenen Datensatz angewendet habe, habe ich einen Fehlklassifizierungsfehler als Kriterium verwendet, die Darstellung ist nicht ähnlich. Zufälliger Wald fällt viel besser aus als logistische Regression. Der Fehlklassifizierungsfehler von RF beträgt 0,2, für LR 0,4. Gleichzeitig beträgt die AUC für RF 0,8, für LR 0,73.
user1946504
5

(Kommentar zu obiger Antwort und Feedback)

Vielen Dank für das Lesen des Blogs!

Die Cross-Entropy-Fehlerfunktion hat einen kleinen Cheat und schneidet die vorhergesagten Werte auf [1e-10, 1-1e-10] ab, um Fehler in den Protokollfunktionen kostengünstig und einfach zu vermeiden. Ansonsten ist dies die Standardformel.

Für das Dataset ist es sehr gut möglich, Datasets zu haben, bei denen eine zufällige Gesamtstruktur einem Protokoll weit überlegen ist. reg. und das Protokoll. reg. fügt dem Ensemble nichts hinzu. Stellen Sie natürlich sicher, dass Sie Hold-out-Daten verwenden. Eine zufällige Gesamtstruktur erzielt aufgrund weitaus effektiverer Parameter fast immer bessere Ergebnisse bei den Trainingsdaten.

OverKAnalytics
quelle