Ich habe die logistische Regression verwendet. Ich habe sechs Funktionen. Ich möchte die wichtigen Funktionen in diesem Klassifikator kennen, die das Ergebnis stärker beeinflussen als andere Funktionen. Ich habe Information Gain verwendet, aber es scheint, dass es nicht vom verwendeten Klassifikator abhängt. Gibt es eine Methode, um die Features nach ihrer Wichtigkeit basierend auf einem bestimmten Klassifikator (wie der logistischen Regression) zu ordnen? Jede Hilfe wäre sehr dankbar.
logistic
feature-selection
ranking
regression-strategies
Blaues Mädchen
quelle
quelle
Antworten:
Ich denke, die Antwort, die Sie suchen, könnte der Boruta- Algorithmus sein. Dies ist eine Wrapper-Methode, die die Wichtigkeit von Features direkt im Sinne von "Alle Relevanz" misst und in einem R-Paket implementiert ist , das schöne Diagramme erstellt, z. B. wo die Wichtigkeit eines Features auf der y-Achse liegt und mit a verglichen wird Null hier blau dargestellt. Dieser Blog-Beitrag beschreibt den Ansatz und ich würde empfehlen, ihn als sehr klares Intro zu lesen.
quelle
Um zu verstehen, wie Variablen nach Bedeutung für Regressionsmodelle eingestuft werden, können Sie mit der linearen Regression beginnen. Ein beliebter Ansatz zur Einstufung der Bedeutung einer Variablen in einem linearen Regressionsmodell besteht darin, in Beiträge zu zerlegen , die jeder Variablen zugeordnet sind. Aufgrund der Korrelationen zwischen Variablen ist die Bedeutung von Variablen bei der linearen Regression jedoch nicht einfach. Siehe das Dokument zur Beschreibung der PMD-Methode (Feldman, 2005) [ 3 ]. Ein weiterer populärer Ansatz ist die Mittelung über Ordnungen (LMG, 1980) [ 2 ].R2
Es besteht kein großer Konsens darüber, wie Variablen für die logistische Regression eingestuft werden sollen. Einen guten Überblick über dieses Thema gibt [ 1 ]. Es beschreibt Anpassungen der linearen Regressionstechniken mit relativer Bedeutung unter Verwendung von Pseudo- für die logistische Regression.R2
Eine Liste der gängigen Ansätze zur Einstufung der Merkmalsbedeutung in logistischen Regressionsmodellen ist:
Verweise:
quelle
Sei nicht beunruhigt. Logistische Regression (LR) kann ein Klassifizierungsschema sein. LR minimiert den folgenden Verlust: wobei und der Merkmalsvektor und der sind, zum Beispiel aus Ihrem Trainingssatz. Diese Funktion ergibt sich aus der gemeinsamen Wahrscheinlichkeit aller Trainingsbeispiele, was ihre probabalistische Natur erklärt, obwohl wir sie zur Klassifizierung verwenden. In der Gleichung ist Ihr Gewichtsvektor und Ihre Vorspannung. Ich vertraue darauf, dass Sie wissen, was
Angenommen, alle Ihre sind normalisiert, beispielsweise durch Abweichung von der Größe von , ist es ziemlich einfach zu erkennen, welche Variablen wichtiger sind: diejenigen, die größer sind als die anderen oder (auf der negativen Seite) ) kleiner von den anderen. Sie beeinflussen den Verlust am meisten.x x
Wenn Sie die wirklich wichtigen Variablen finden und dabei nichts dagegen haben, ein paar , können Ihre Verlustfunktion regulieren:ℓ1
Die Derivate oder der Regularizer sind recht einfach, daher werde ich sie hier nicht erwähnen. Wenn Sie diese Form der Regularisierung und ein geeignetes werden die weniger wichtigen Elemente in auf Null gesetzt und die anderen nicht.λ w
Ich hoffe das hilft. Fragen Sie, wenn Sie weitere Fragen haben.
quelle