Ich bin neu im maschinellen Lernen. Ich habe logistische Regression und zufällige Gesamtstruktur auf denselben Datensatz angewendet. Ich erhalte also eine variable Wichtigkeit (absoluter Koeffizient für die logistische Regression und variable Wichtigkeit für zufällige Wälder). Ich denke, die beiden zu kombinieren, um eine endgültige variable Bedeutung zu erhalten. Kann jemand seine / ihre Erfahrungen teilen? Ich habe das Absacken, Boosten und Modellieren von Ensembles überprüft, aber sie sind nicht das, was ich brauche. Sie kombinieren eher Informationen für dasselbe Modell über Replikate hinweg. Was ich suche, ist das Ergebnis mehrerer Modelle zu kombinieren.
machine-learning
logistic
random-forest
user1946504
quelle
quelle
Antworten:
Dies hängt wahrscheinlich davon ab, wofür Sie variable Wichtigkeiten verwenden möchten. Soll es als Kriterium für die Merkmalsauswahl für ein drittes Klassifizierungsmodell verwendet werden? In diesem Fall könnten Sie versuchen, einen gewichteten Durchschnitt der variablen Wichtigkeiten (möglicherweise nach Normalisierung jedes einzelnen variablen Wichtigkeitsvektors auf Längeneinheit) für verschiedene Werte und das Durchschnittsgewicht zu berechnen und dann den Wert zu ermitteln, der die beste kreuzvalidierte Punktzahl für das Finale ergibt Modell.
In Bezug auf die Kombination des Ergebnisses des logistischen Regressionsmodells und des zufälligen Gesamtstrukturmodells (ohne Berücksichtigung variabler Wichtigkeiten) ist der folgende Blog-Beitrag sehr informativ und zeigt, dass eine einzelne Mittelung der Ausgabe eine einfache, aber sehr effektive Ensemble-Methode für Regressionsmodelle ist.
quelle
(Kommentar zu obiger Antwort und Feedback)
Vielen Dank für das Lesen des Blogs!
Die Cross-Entropy-Fehlerfunktion hat einen kleinen Cheat und schneidet die vorhergesagten Werte auf [1e-10, 1-1e-10] ab, um Fehler in den Protokollfunktionen kostengünstig und einfach zu vermeiden. Ansonsten ist dies die Standardformel.
Für das Dataset ist es sehr gut möglich, Datasets zu haben, bei denen eine zufällige Gesamtstruktur einem Protokoll weit überlegen ist. reg. und das Protokoll. reg. fügt dem Ensemble nichts hinzu. Stellen Sie natürlich sicher, dass Sie Hold-out-Daten verwenden. Eine zufällige Gesamtstruktur erzielt aufgrund weitaus effektiverer Parameter fast immer bessere Ergebnisse bei den Trainingsdaten.
quelle