Mein Verständnis des Unterschieds zwischen maschinellem Lernen / anderen statistischen Vorhersagetechniken und der Art von Statistiken, die von Sozialwissenschaftlern (z. B. Wirtschaftswissenschaftlern) verwendet werden, besteht darin, dass die Wirtschaftswissenschaftler sehr daran interessiert zu sein scheinen, die Wirkung einer oder mehrerer Variablen zu verstehen - beides in Bezug auf Größe und Feststellung, ob die Beziehung kausal ist. Dazu beschäftigen Sie sich mit experimentellen und quasi-experimentellen Methoden usw.
Maschinelles Lernen oder statistische Modellierung, die prädiktiv sind, vernachlässigen diesen Aspekt häufig vollständig und geben Ihnen in vielen Fällen keinen bestimmten Grad, in dem eine Variable das Ergebnis beeinflusst (logit und probit scheinen beides zu tun).
Eine verwandte Frage ist, inwieweit theoretisch inspirierte Wirtschafts- oder Verhaltensmodelle einen Vorteil gegenüber atheoretischen Modellen bei der Vorhersage neuer Bereiche haben. Was würde ein maschinelles Lernen oder ein prädiktionsorientierter Statistiker zu der Kritik sagen, dass Sie ohne ein Wirtschaftsmodell neue Stichproben, bei denen die Kovariaten sehr unterschiedlich waren, nicht richtig vorhersagen könnten?
Es würde mich sehr freuen, wenn die Leute dies aus allen Perspektiven sehen würden.
quelle
Antworten:
Es gibt IMHO keine formalen Unterschiede, die maschinelles Lernen und Statistik auf der grundlegenden Ebene der Anpassung von Modellen an Daten unterscheiden. Es kann kulturelle Unterschiede bei der Auswahl von Modellen, den Zielen der Anpassung von Modellen an Daten und in gewissem Umfang bei der Interpretation geben.
In den typischen Beispielen, an die ich denken kann, haben wir immer
Was als statistische Modellauswahl der alten Schule bezeichnet werden könnte, basiert auf statistischen Tests, die möglicherweise mit schrittweisen Auswahlstrategien kombiniert werden, wohingegen sich die Modellauswahl des maschinellen Lernens in der Regel auf den erwarteten Generalisierungsfehler konzentriert, der häufig durch Kreuzvalidierung geschätzt wird. Die gegenwärtigen Entwicklungen und das Verständnis der Modellauswahl scheinen sich jedoch einer allgemeineren Grundlage anzunähern , siehe beispielsweise Modellauswahl und Modellmittelung .
Rückschluss auf die Kausalität von Modellen
Der springende Punkt ist, wie wir ein Modell interpretieren können. Wenn die erhaltenen Daten aus einem sorgfältig ausgearbeiteten Experiment stammen und das Modell angemessen ist, ist es plausibel, dass wir den Effekt einer Änderung einer Variablen im Modell als kausalen Effekt interpretieren können, und wenn wir das Experiment wiederholen und auf diese bestimmte Variable eingreifen Wir können damit rechnen, den geschätzten Effekt zu beobachten. Wenn die Daten jedoch beobachtend sind, können wir nicht erwarten, dass geschätzte Effekte im Modell beobachtbaren Interventionseffekten entsprechen. Dies erfordert zusätzliche Annahmen, unabhängig davon, ob es sich bei dem Modell um ein "maschinelles Lernmodell" oder ein "klassisches statistisches Modell" handelt.
Es kann sein, dass Personen, die in der Verwendung klassischer statistischer Modelle mit Schwerpunkt auf univariaten Parameterschätzungen und Effektgrößeninterpretationen geschult sind, den Eindruck haben, dass eine kausale Interpretation in diesem Rahmen sinnvoller ist als in einem Rahmen für maschinelles Lernen. Ich würde sagen, dass es nicht ist.
Der Bereich der kausalen Inferenz in der Statistik beseitigt das Problem nicht wirklich, macht jedoch die Annahmen deutlich, auf denen kausale Schlussfolgerungen beruhen. Sie werden als nicht testbare Annahmen bezeichnet . Das Papier Kausaler Rückschluss in der Statistik: Ein Überblick von Judea Pearl ist ein gutes Papier zum Lesen. Ein wesentlicher Beitrag der kausalen Folgerung ist die Sammlung von Methoden zur Abschätzung der kausalen Auswirkungen unter Annahmen, bei denen tatsächlich nicht beobachtete Störfaktoren vorliegen, was ansonsten ein wesentliches Problem darstellt. Siehe Abschnitt 3.3 im Pearl Paper oben. Ein ausführlicheres Beispiel findet sich in der Arbeit Marginal Structural Models and Causal Inference in Epidemiology .
Es ist fraglich, ob die nicht testbaren Annahmen zutreffen. Sie sind gerade deshalb nicht testbar, weil wir sie anhand der Daten nicht testen können. Um die Annahmen zu rechtfertigen, sind andere Argumente erforderlich.
Als ein Beispiel dafür, wo sich maschinelles Lernen und kausale Inferenz treffen, nutzen die Ideen der gezielten Maximum-Likelihood-Schätzung, wie sie in Gezieltes Maximum-Likelihood-Lernen von Mark van der Laan und Daniel Rubin vorgestellt werden, typischerweise Techniken des maschinellen Lernens für eine nicht-parametrische Schätzung, gefolgt von dem "Targeting" "auf einen interessierenden Parameter zu. Letzteres könnte durchaus ein Parameter mit kausaler Interpretation sein. Die Idee in Super Learnerist, sich stark auf maschinelles Lernen zu stützen, um interessierende Parameter abzuschätzen. Es ist ein wichtiger Punkt von Mark van der Laan (persönliche Mitteilung), dass klassische, einfache und "interpretierbare" statistische Modelle oft falsch sind, was zu voreingenommenen Schätzern und einer zu optimistischen Einschätzung der Unsicherheit der Schätzungen führt.
quelle
Es gibt eine (ziemlich begrenzte) Reihe statistischer Instrumente für die sogenannte "kausale Folgerung". Diese dienen der eigentlichen Beurteilung von Kausalzusammenhängen und haben sich als richtig erwiesen. Ausgezeichnet, aber nicht für die Sanftmütigen des Herzens (oder des Gehirns).
Abgesehen davon ist die Fähigkeit, Kausalität zu implizieren, in vielen Fällen eher eine Konsequenz Ihres Entwurfs als der vorliegenden Techniken: Wenn Sie die Kontrolle über alle Variablen in Ihrem Experiment haben und jedes Mal etwas passiert ( Wenn Sie nur eine Variable ändern, ist es vernünftig, das Geschehen als "Konsequenz" der von Ihnen vorgenommenen Änderungen zu bezeichnen (in der realen Forschung treten diese extremen Fälle jedoch selten auf). Eine andere intuitive, aber fundierte Argumentation basiert auf der Zeit: Wenn Sie eine Variable zufällig (aber kontrolliert) ändern und eine andere am Tag danach, ist auch die Kausalität in greifbare Nähe gerückt.
Mein zweiter Absatz funktioniert im Wesentlichen unabhängig davon, mit welchen Methoden Sie herausfinden, welche Variablen sich unter welchen Bedingungen geändert haben. Theoretisch gibt es also keinen Grund, warum maschinelles Lernen (ML) schlechter wäre als statistikbasierte Methoden.
Haftungsausschluss : Nachstehend ein sehr subjektiver Absatz
Nach meiner Erfahrung werden jedoch zu oft ML-Techniken auf einem Datenblock losgelassen, ohne zu berücksichtigen, woher die Daten stammen oder wie sie gesammelt wurden (dh ohne Berücksichtigung des Designs). In diesen Fällen kommt es immer wieder vor, dass ein Ergebnis hochschnellt, aber es wird äußerst schwierig sein, etwas Nützliches über die Kausalität zu sagen. Das wirdgenau gleich sein, wenn eine statistisch fundierte Methode für dieselben Daten ausgeführt wird. Menschen mit einem starken statistischen Hintergrund sind jedoch darin geschult, in Bezug auf diese Angelegenheiten kritisch zu sein, und wenn alles gut geht, werden diese Fallstricke vermieden. Vielleicht ist es einfach die Denkweise früher (aber schlampiger) Anwender von ML-Techniken (normalerweise nicht die Entwickler neuer Techniken, sondern diejenigen, die darauf aus sind, einige Ergebnisse mit ihnen in ihrem Interessengebiet zu "beweisen"), die ML in dieser Hinsicht zu einem schlechten Ruf verholfen haben Konto. (Beachte, dass ich nicht sage, dass Statistik besser ist als ML, oder dass alle Leute, die ML machen, schlampig sind und diejenigen, die Statistiken machen, nicht)
quelle
Meiner Ansicht nach sind die in den Wirtschafts- und den anderen Sozialwissenschaften verwendeten Modelle nur insoweit nützlich, als sie in der realen Welt Vorhersagekraft haben - ein Modell, das die reale Welt nicht vorhersagt, ist nur eine kluge Rechnung. Ein Lieblingsspruch von mir an Kollegen ist, dass "Daten König sind".
Es scheint mir, dass Ihre Frage zwei Kritikpunkte eines prädiktiven Ansatzes aufwirft. Zunächst weisen Sie darauf hin, dass die mit maschinellen Lerntechniken erstellten Modelle möglicherweise nicht interpretierbar sind . Zweitens schlagen Sie vor, dass die Methoden der Sozialwissenschaften nützlicher sind, um kausale Zusammenhänge aufzudecken, als maschinelles Lernen.
Um den ersten Punkt anzusprechen, würde ich das folgende Gegenargument anbieten. Die gegenwärtige Modeerscheinung des maschinellen Lernens bevorzugt Methoden (wie SVMs und NN), die für Laien überhaupt nicht leicht zu verstehen sind. Dies bedeutet nicht, dass alle Techniken des maschinellen Lernens diese Eigenschaft haben. Zum Beispiel wird der ehrwürdige C4.5-Entscheidungsbaum auch 20 Jahre nach Erreichen des Endstadiums seiner Entwicklung noch häufig verwendet und erzeugt als Ausgabe eine Reihe von Klassifizierungsregeln. Ich würde argumentieren, dass sich solche Regeln besser interpretieren lassen als Konzepte wie das Log Odds Ratio, aber das ist eine subjektive Behauptung. In jedem Fall solche Modelle sind interpretierbar.
In Bezug auf den zweiten Punkt gebe ich zu, dass es wahrscheinlich nicht klappt, wenn Sie ein maschinelles Lernmodell in einer Umgebung trainieren und in einer anderen testen. Es gibt jedoch keinen Grund, a priori anzunehmen, dass dies nicht auch für a zutrifft Konventionelleres Modell: Wenn Sie Ihr Modell unter einer Reihe von Annahmen erstellen und dann unter einer anderen auswerten, erhalten Sie schlechte Ergebnisse. Um einen Satz aus der Computerprogrammierung zu übernehmen: "Müll rein, Müll raus" gilt sowohl für maschinelles Lernen als auch für entworfene Modelle.
quelle
Kausale Inferenz ist ein aktives Forschungsgebiet im Bereich des maschinellen Lernens, siehe z. B. den Ablauf dieses und dieses Workshops . Ich möchte jedoch darauf hinweisen, dass es auch dann eine gute Idee ist, einen undurchsichtigen, rein prädiktiven Ansatz parallel zu versuchen, wenn kausale Schlussfolgerungen oder Modellinterpretationen Ihr Hauptinteresse sind, damit Sie wissen, ob das Bestehen auf eine signifikante Leistungseinbuße zurückzuführen ist ein interpretierbares Modell.
quelle
Ich werde die sehr guten Punkte, die bereits in anderen Antworten angesprochen wurden, nicht wiederholen, möchte aber eine etwas andere Perspektive hinzufügen. Was ich hier sage, ist etwas philosophisch, nicht unbedingt aus Berufserfahrung, sondern aus einem gemischten Hintergrund in den Naturwissenschaften, der Theorie komplexer Systeme und dem maschinellen Lernen (und ich muss zugeben, dass die Statistik zum größten Teil noch nicht abgeschlossen ist).
Ein wesentlicher Unterschied zwischen maschinellem Lernen und klassischen statistischen Ansätzen (die mir bekannt sind) liegt in den getroffenen Annahmen. In der klassischen Statistik sind viele Annahmen über die zugrunde liegenden Prozesse und Verteilungen festgelegt und gelten als selbstverständlich. Beim maschinellen Lernen werden diese Annahmen jedoch explizit für jedes Modell ausgewählt, was zu einem viel breiteren Spektrum von Möglichkeiten und möglicherweise zu einem größeren Bewusstsein für die getroffenen Annahmen führt.
Wir sehen immer mehr, dass sich Systeme in der Welt um uns herum auf komplexe, nichtlineare Weise verhalten und dass viele Prozesse den in der klassischen Statistik üblichen Normalitätsannahmen usw. nicht entsprechen. Ich würde argumentieren, dass aufgrund der Flexibilität und der Vielfalt der Modellannahmen maschinelle Lernansätze in solchen Fällen häufig zu einem robusteren Modell führen.
Es gibt starke Modellannahmen, die in Ausdrücke wie "Größenordnung der Wirkung", "Kausalzusammenhang" und "Ausmaß, in dem eine Variable das Ergebnis beeinflusst" eingebaut sind. In einem komplexen System (wie einer Volkswirtschaft) sind diese Annahmen nur innerhalb eines bestimmten Fensters möglicher Systemzustände gültig. Bei einigen Observablen und Prozessen kann dieses Fenster groß sein, was zu relativ robusten Modellen führt. Bei anderen kann es klein oder sogar leer sein. Die vielleicht größte Gefahr ist der Mittelweg: Ein Modell scheint zu funktionieren, aber wenn sich das System verschiebt, scheitert es plötzlich und überraschend.
Maschinelles Lernen ist kein Allheilmittel. Ich sehe es vielmehr als eine Suche nach neuen Wegen, um aus unseren Beobachtungen einen Sinn zu gewinnen und nach neuen Paradigmen zu suchen, die erforderlich sind, um mit der Komplexität, die wir in der Welt um uns herum wahrzunehmen beginnen, effektiv umzugehen.
quelle