Gegeben eine Menge von Instanzen. Für jede Instanz habe ich einen Merkmalsvektor bestehend aus (numerische) Merkmale (, , ...,), n >> m. Außerdem habe ich für jeden Fall eine numerische Punktzahl(beobachtbar). Ich würde gerne:
- Finden Sie heraus, welche Teilmenge von Merkmalen oder eine lineare Kombination davon die Ergebnisse am besten erklärt.
- Erstellen Sie dazu eine schöne Visualisierung.
Ich wurde auf die Hauptkomponentenanalyse (PCA) hingewiesen. Das Problem mit PCA ist, dass nur die Merkmalsvektoren berücksichtigt werden. PCA bezieht die Merkmale nicht auf die numerische Bewertung.
Praktische Anwendung: Angesichts einer großen Anzahl von Problemfällen (z. B. Probleme mit Handlungsreisenden) und eines Algorithmus zur Lösung des Problems. Jedes Mal, wenn wir die Instanz lösen, können wir die Gesamtzeit (= Punktzahl) messen, die zum Lösen der Instanz benötigt wurde. Darüber hinaus können wir für jede Instanz eine Reihe von Merkmalen erhalten, z. B. Größe der Instanz, Graphendurchmesser usw. Welche dieser Merkmale erklären die Rechenzeit am besten?
quelle
Antworten:
Es gibt viele Möglichkeiten, es kommt darauf an, was genau Sie wollen.
Feature-Wichtigkeit oder Permutations-Wichtigkeit
Beide Methoden zeigen Ihnen, welche Funktionen für das Modell am wichtigsten sind. Es ist eine Nummer für jede Funktion. Sie wird nach dem Einbau des Modells berechnet. Es sagt Ihnen nichts darüber aus, welche Werte eines Features welche Punktzahlen implizieren.
In sklearn haben die meisten modelz
model.feature_importances_
. Die Summe aller Feature-Wichtigkeiten beträgt 1.Die Permutationsbedeutung wird für ein angepasstes Modell berechnet. Hier erfahren Sie, um wie viel sich die Metrik verschlechtert, wenn Sie die Feature-Spalte mischen.
Pseudocode:
Weitere Informationen zur Permutationsbedeutung finden Sie hier .
Teilabhängigkeitsdiagramme
Hier erfahren Sie, welche Werte eines Features die Vorhersagewerte erhöhen / verringern. Es sieht aus wie das:
Weitere Informationen zu Kaggle: Partial Dependence Plots oder direkt zur Bibliothek PDPbox GitHub .
SHAP-Wert
erklärt, warum das Modell eine bestimmte Vorhersage für eine bestimmte Instanz liefert. Das folgende Diagramm zeigt, mit welchen Feature-Werten die Vorhersage von einem Durchschnittswert auf den aktuellen Wert für die aktuelle Instanz verschoben wurde.
Weitere Informationen finden Sie in der SHAP-Bibliothek .
quelle