Gibt es Literatur, in der die Eigenschaften von Algorithmen aufgelistet sind, die eine Erklärung ermöglichen?
Die einzige mir bekannte Literatur ist die jüngste Veröffentlichung von Ribero, Singh und Guestrin. Sie definieren zunächst die Erklärbarkeit einer einzelnen Vorhersage:
Mit „Erklären einer Vorhersage“ meinen wir die Darstellung von Text- oder visuellen Artefakten, die ein qualitatives Verständnis der Beziehung zwischen den Komponenten der Instanz (z. B. Wörter im Text, Patches in einem Bild) und der Vorhersage des Modells liefern.
Die Autoren erläutern weiter, was dies für konkretere Beispiele bedeutet, und verwenden diesen Begriff dann, um die Erklärbarkeit eines Modells zu definieren. Ihr Ziel ist es, zu versuchen, sozusagen künstliche Erklärbarkeit zu ansonsten intransparenten Modellen hinzuzufügen, anstatt die Erklärbarkeit bestehender Methoden zu vergleichen. Das Papier kann ohnehin hilfreich sein, da versucht wird, eine genauere Terminologie um den Begriff "Erklärbarkeit" einzuführen.
Gibt es Modelle für maschinelles Lernen, die allgemein als ein guter Kompromiss zwischen beiden angesehen werden?
Ich stimme @Winter zu, dass das elastische Netz für (nicht nur logistische) Regression als Beispiel für einen guten Kompromiss zwischen Vorhersagegenauigkeit und Erklärbarkeit angesehen werden kann.
Für eine andere Art von Anwendungsdomäne (Zeitreihen) bietet eine andere Klasse von Methoden ebenfalls einen guten Kompromiss: die Bayes'sche strukturelle Zeitreihenmodellierung. Es erbt die Erklärbarkeit der klassischen strukturellen Zeitreihenmodellierung und eine gewisse Flexibilität des Bayes'schen Ansatzes. Ähnlich wie bei der logistischen Regression wird die Erklärbarkeit durch Regressionsgleichungen unterstützt, die für die Modellierung verwendet werden. In diesem Dokument finden Sie eine schöne Anwendung im Marketing und weitere Referenzen.
In Bezug auf den gerade erwähnten Bayes'schen Kontext möchten Sie möglicherweise auch probabilistische grafische Modelle betrachten. Ihre Erklärbarkeit beruht nicht auf Regressionsgleichungen, sondern auf grafischen Modellierungsmethoden. Einen großartigen Überblick finden Sie unter "Probabilistische grafische Modelle: Prinzipien und Techniken" von Koller und Friedman.
Ich bin mir nicht sicher, ob wir die oben genannten Bayes'schen Methoden als "allgemein akzeptierten guten Kompromiss" bezeichnen können. Sie sind dafür möglicherweise nicht hinreichend bekannt, insbesondere im Vergleich zum Beispiel des elastischen Netzes.
Ich gehe davon aus, dass Sie mit guter Vorhersage in der Lage sind, in den Daten vorhandene Nichtlinearitäten anzupassen und gleichzeitig ziemlich robust gegenüber Überanpassungen zu sein. Der Kompromiss zwischen Interpretierbarkeit und der Vorhersage dieser Nichtlinearitäten hängt von den Daten und der gestellten Frage ab. In der Datenwissenschaft gibt es wirklich kein kostenloses Mittagessen, und kein einzelner Algorithmus kann als der beste für einen Datensatz angesehen werden (und das gilt auch für die Interpretierbarkeit).
Die allgemeine Regel sollte lauten: Je mehr Algorithmen Sie kennen, desto besser ist es für Sie, da Sie sich leichter an Ihre spezifischen Anforderungen anpassen können.
Wenn ich meinen Favoriten für die Klassifizierungsaufgabe auswählen müsste, die ich häufig im Geschäftsumfeld verwende, würde ich ein elastisches Netz für die logistische Regression auswählen . Trotz der starken Annahme über den Prozess, der die Daten generiert, kann er dank des Regularisierungsterms, der seine Interpretierbarkeit gegenüber der grundlegenden logistischen Regression beibehält, leicht in Daten übernommen werden.
Ich würde Ihnen empfehlen, ein gut geschriebenes Buch auszuwählen, das die häufig verwendeten Algorithmen für maschinelles Lernen und ihre Vor- und Nachteile in verschiedenen Szenarien beschreibt. Ein Beispiel für ein solches Buch können die Elemente des statistischen Lernens von T. Hastie, R. Tibshirani und J. Friedman sein
quelle
Möglicherweise sehe ich meine Antwort bezüglich der unvernünftigen Wirksamkeit von Ensembles und der Kompromisse zwischen Erklärung und Vorhersage. Die minimale Nachrichtenlänge (MML, Wallace 2005) gibt eine formale Definition der Erklärung in Bezug auf die Datenkomprimierung und motiviert die Erwartung, dass Erklärungen im Allgemeinen ohne Überanpassung passen und gute Erklärungen gute, verallgemeinerbare Vorhersagen generieren. Es berührt aber auch die formale Theorie, warum Ensembles bessere Vorhersagen treffen werden - ein Ergebnis, das auf (Solomonoff 1964) zur optimalen Vorhersage zurückgeht und den vollständig bayesianischen Ansätzen eigen ist: Integrieren Sie über die posteriore Verteilung, wählen Sie nicht nur den Mittelwert, den Median, oder Modus.
quelle