Welche Algorithmen für maschinelles Lernen werden als guter Kompromiss zwischen Erklärbarkeit und Vorhersage akzeptiert?

9

Texte zum maschinellen Lernen, die Algorithmen wie Maschinen zur Erhöhung des Gradienten oder neuronale Netze beschreiben, kommentieren häufig, dass diese Modelle gut vorhersagbar sind, dies geht jedoch zu Lasten eines Verlustes an Erklärbarkeit oder Interpretierbarkeit. Umgekehrt werden einzelne Entscheidungsbäume und klassische Regressionsmodelle als gut erklärbar eingestuft, bieten jedoch eine (relativ) schlechte Vorhersagegenauigkeit im Vergleich zu komplexeren Modellen wie zufälligen Wäldern oder SVMs. Gibt es Modelle für maschinelles Lernen, die allgemein als ein guter Kompromiss zwischen beiden angesehen werden? Gibt es Literatur, in der die Eigenschaften von Algorithmen aufgelistet sind, die eine Erklärung ermöglichen? (Diese Frage wurde zuvor bei einer Kreuzvalidierung gestellt.)

Robert de Graaf
quelle

Antworten:

3

Gibt es Literatur, in der die Eigenschaften von Algorithmen aufgelistet sind, die eine Erklärung ermöglichen?

Die einzige mir bekannte Literatur ist die jüngste Veröffentlichung von Ribero, Singh und Guestrin. Sie definieren zunächst die Erklärbarkeit einer einzelnen Vorhersage:

Mit „Erklären einer Vorhersage“ meinen wir die Darstellung von Text- oder visuellen Artefakten, die ein qualitatives Verständnis der Beziehung zwischen den Komponenten der Instanz (z. B. Wörter im Text, Patches in einem Bild) und der Vorhersage des Modells liefern.

Die Autoren erläutern weiter, was dies für konkretere Beispiele bedeutet, und verwenden diesen Begriff dann, um die Erklärbarkeit eines Modells zu definieren. Ihr Ziel ist es, zu versuchen, sozusagen künstliche Erklärbarkeit zu ansonsten intransparenten Modellen hinzuzufügen, anstatt die Erklärbarkeit bestehender Methoden zu vergleichen. Das Papier kann ohnehin hilfreich sein, da versucht wird, eine genauere Terminologie um den Begriff "Erklärbarkeit" einzuführen.

Gibt es Modelle für maschinelles Lernen, die allgemein als ein guter Kompromiss zwischen beiden angesehen werden?

Ich stimme @Winter zu, dass das elastische Netz für (nicht nur logistische) Regression als Beispiel für einen guten Kompromiss zwischen Vorhersagegenauigkeit und Erklärbarkeit angesehen werden kann.

Für eine andere Art von Anwendungsdomäne (Zeitreihen) bietet eine andere Klasse von Methoden ebenfalls einen guten Kompromiss: die Bayes'sche strukturelle Zeitreihenmodellierung. Es erbt die Erklärbarkeit der klassischen strukturellen Zeitreihenmodellierung und eine gewisse Flexibilität des Bayes'schen Ansatzes. Ähnlich wie bei der logistischen Regression wird die Erklärbarkeit durch Regressionsgleichungen unterstützt, die für die Modellierung verwendet werden. In diesem Dokument finden Sie eine schöne Anwendung im Marketing und weitere Referenzen.

In Bezug auf den gerade erwähnten Bayes'schen Kontext möchten Sie möglicherweise auch probabilistische grafische Modelle betrachten. Ihre Erklärbarkeit beruht nicht auf Regressionsgleichungen, sondern auf grafischen Modellierungsmethoden. Einen großartigen Überblick finden Sie unter "Probabilistische grafische Modelle: Prinzipien und Techniken" von Koller und Friedman.

Ich bin mir nicht sicher, ob wir die oben genannten Bayes'schen Methoden als "allgemein akzeptierten guten Kompromiss" bezeichnen können. Sie sind dafür möglicherweise nicht hinreichend bekannt, insbesondere im Vergleich zum Beispiel des elastischen Netzes.

MightyCurious
quelle
Nachdem ich nun mehr Gelegenheit hatte, das verknüpfte Papier von Ribeiro et al. In Betracht zu ziehen, möchte ich sagen, dass Abschnitt 2 „Der Erklärungsgrund“ eine nützliche Definition von „Erklärbarkeit“ enthält und a Eine anständige Arbeit, die ihre Bedeutung umreißt und als solche verdient, in der Data Science-Community weithin gelesen zu werden.
Robert de Graaf
Obwohl die Prämisse meiner Frage im Lebenslauf nicht akzeptiert wurde, half mir @SeanEaster mit diesem nützlichen Link: jstage.jst.go.jp/article/bhmk1974/26/1/26_1_29/_article
Robert de Graaf
3

Gibt es Modelle für maschinelles Lernen, die allgemein als ein guter Kompromiss zwischen beiden angesehen werden?

Ich gehe davon aus, dass Sie mit guter Vorhersage in der Lage sind, in den Daten vorhandene Nichtlinearitäten anzupassen und gleichzeitig ziemlich robust gegenüber Überanpassungen zu sein. Der Kompromiss zwischen Interpretierbarkeit und der Vorhersage dieser Nichtlinearitäten hängt von den Daten und der gestellten Frage ab. In der Datenwissenschaft gibt es wirklich kein kostenloses Mittagessen, und kein einzelner Algorithmus kann als der beste für einen Datensatz angesehen werden (und das gilt auch für die Interpretierbarkeit).

Die allgemeine Regel sollte lauten: Je mehr Algorithmen Sie kennen, desto besser ist es für Sie, da Sie sich leichter an Ihre spezifischen Anforderungen anpassen können.

Wenn ich meinen Favoriten für die Klassifizierungsaufgabe auswählen müsste, die ich häufig im Geschäftsumfeld verwende, würde ich ein elastisches Netz für die logistische Regression auswählen . Trotz der starken Annahme über den Prozess, der die Daten generiert, kann er dank des Regularisierungsterms, der seine Interpretierbarkeit gegenüber der grundlegenden logistischen Regression beibehält, leicht in Daten übernommen werden.

Gibt es Literatur, in der die Eigenschaften von Algorithmen aufgelistet sind, die eine Erklärung ermöglichen?

Ich würde Ihnen empfehlen, ein gut geschriebenes Buch auszuwählen, das die häufig verwendeten Algorithmen für maschinelles Lernen und ihre Vor- und Nachteile in verschiedenen Szenarien beschreibt. Ein Beispiel für ein solches Buch können die Elemente des statistischen Lernens von T. Hastie, R. Tibshirani und J. Friedman sein

Winter
quelle
3
TBH, es war meine Frustration über diesen genauen Text, der das Wort "interpretierbar" in Bezug auf verschiedene Modelle oft verwendet und in einer Phase sagt: "... Data Mining-Anwendungen erfordern interpretierbare Modelle. Es reicht nicht aus, nur Vorhersagen zu erstellen (Abschnitt 10.7), ohne dass ich Material zur Identifizierung eines interpretierbaren Modells finden kann - was die Frage aufwirft. Obwohl ich es ablehne und ablehne, einem so hoch angesehenen Text kritisch gegenüberzustehen. In ähnlicher Weise listet TIbshiranis Artikel, in dem das LASSO vorgestellt wird, "interpretierbar" als eine seiner Tugenden auf, ohne zu sagen, was "interpretierbar" ist.
Robert de Graaf
1

Möglicherweise sehe ich meine Antwort bezüglich der unvernünftigen Wirksamkeit von Ensembles und der Kompromisse zwischen Erklärung und Vorhersage. Die minimale Nachrichtenlänge (MML, Wallace 2005) gibt eine formale Definition der Erklärung in Bezug auf die Datenkomprimierung und motiviert die Erwartung, dass Erklärungen im Allgemeinen ohne Überanpassung passen und gute Erklärungen gute, verallgemeinerbare Vorhersagen generieren. Es berührt aber auch die formale Theorie, warum Ensembles bessere Vorhersagen treffen werden - ein Ergebnis, das auf (Solomonoff 1964) zur optimalen Vorhersage zurückgeht und den vollständig bayesianischen Ansätzen eigen ist: Integrieren Sie über die posteriore Verteilung, wählen Sie nicht nur den Mittelwert, den Median, oder Modus.

ctwardy
quelle