Auf Modellebene können wir zur Bewertung des Beitrags / der Bedeutung von Prädiktoren Folgendes verwenden:
- Modellspezifische Techniken - z. B. Reinheit (Gini-Index) für ein baumbasiertes Modell, gegebenenfalls Modellkoeffizienten usw.
- Modellunabhängige Techniken - z. B. Bedeutung von Permutationsmerkmalen, partielle Abhängigkeit usw.
Was dies nicht vermittelt, ist für eine bestimmte Vorhersage (z. B. eine binäre Klassifikation, die eine Wahrscheinlichkeit von 92% für die Zugehörigkeit zur Klasse 1 liefert), welche Prädiktoren bei der Erstellung dieser Vorhersage am „einflussreichsten“ waren.
Nachdem ich ein wenig über dieses Problem nachgedacht habe, scheint es mir einige Ansätze zu geben, die gewählt werden könnten:
- Modellspezifische Techniken - z. B. Koeffizienten anwendbarer linearer Modelle, Techniken wie hier für beispielsweise XGBoost beschrieben ( https://medium.com/applied-data-science/new-r-package-the-xgboost-explainer-51dd7d1aa211 )
- Modellunabhängige Techniken - z. B. eine Art „Störungsmethode“ ähnlich der partiellen Abhängigkeit, um zu verstehen, wie sich die Vorhersage ändert, wenn wir den Prädiktor stören und möglicherweise modellieren? Oder Techniken wie LIME, die in diesem Artikel beschrieben werden ( https://arxiv.org/) pdf / 1602.04938.pdf und https://github.com/marcotcr/lime ), eine modifizierte Permutation Importance-Technik?
Es scheint mir, dass der wertvollste Ansatz eine modellunabhängige Technik wäre, da viele Algorithmen etwas „Black-Box“ -Natur sind und neuartige und neue Algorithmen und Techniken interpretieren können.
Eine hier beschriebene naive Methode ( http://amunategui.github.io/actionable-instights/index.html ) besteht darin, jeden Prädiktor zu nehmen, seine Auswirkungen zu „neutralisieren“, indem beispielsweise der Mittelwert der „Bevölkerung“ unterstellt wird, und die Vorhersage erneut auszuführen einen Unterschied zwischen der ursprünglichen Vorhersage und der neutralisierten Version zu erhalten, die ein wichtiges Maß darstellt. Dies scheint ein Sonderfall einer Art "Störungs" -Methode zu sein, auf die oben hingewiesen wurde. Ein paar Fehler, die ich darin sehe, sind: 1) Es scheint zu implizieren, dass eine Vorhersage, die den „Mittelwert“ (oder ein Äquivalent) jedes Merkmals hat, notwendigerweise eine „mittlere“ Vorhersage ist, und 2) dass Merkmale „Mittelwerte“ sind ”(Oder gleichwertig) sind notwendigerweise nicht wirkungsvoll?
Im Allgemeinen müsste jede Technik Folgendes berücksichtigen:
- Umgang mit verschiedenen Datentypen (numerisch, kategorial usw.)
- Umgang mit fehlenden Daten
- Wie man mit bedingter Wichtigkeit umgeht (dh dass Prädiktoren nur paarweise wichtig sein können usw.)
- Recheneffizienz (ist es wirklich praktisch, eine Vorhersage mal auszuführen, wobei die Anzahl der Prädiktoren ist, oder für eine Störungsmethode wobei die Anzahl der Vorhersagen pro Prädiktor usw. ist)p k p k
Angesichts dieser losen und vielleicht falschen Gedanken zu diesem Thema frage ich mich, welche Herangehensweisen an das Problem die Menschen kennen, in Betracht gezogen, verwendet, beraten usw. haben.
quelle
Zwei weitere erwähnenswerte Methoden sind:
1) Der SHAP- Algorithmus von Lundberg & Lee , eine Erweiterung des spieltheoretischen Ansatzes von Štrumbelj & Kononenko, von dem sie behaupten, dass er LIME und eine Reihe anderer lokaler Wichtigkeitsmaßnahmen vereint; und
2) Die kontrafaktische Methode von Wachter et al., Die auf generativen kontradiktorischen Netzwerken basiert.
Beide Methoden haben Vor- und Nachteile. SHAP ist sehr schnell und wird mit einer benutzerfreundlichen Python-Implementierung geliefert . Leider werden Punkte immer mit dem Datenschwerpunkt verglichen, was in einigen Fällen möglicherweise nicht der relevante Kontrast ist. Ebenso wie LIME und eine Reihe anderer Algorithmen wird eine lokale Linearität angenommen (oder erzwungen), was zu instabilen oder nicht informativen Ergebnissen führen kann, wenn sich unser interessierender Fall in der Nähe eines deutlich nichtlinearen Bereichs der Entscheidungsgrenze oder der Regressionsfläche befindet.
Die Lösung von Wachter et al. Ist in dieser Hinsicht flexibler, eine erfrischende Abweichung von dem, was Lundberg & Lee das Paradigma der "additiven Merkmalszuweisung" nennt. Mir ist jedoch keine Open Source-Implementierung bekannt. Der zusätzliche Aufwand für GAN-Schulungen kann für einige Datensätze auch äußerst belastend sein.
quelle