Praktische Gedanken zur erklärenden vs. prädiktiven Modellierung

70

Im April nahm ich an einem Vortrag in der Seminarreihe der Statistikabteilung des UMD teil, der sich "Erklären oder Vorhersagen?" Der Vortrag wurde von Prof. Galit Shmueli gehalten, der an der Smith Business School von UMD unterrichtet. Ihr Vortrag basierte auf Recherchen zu einem Artikel mit dem Titel "Predictive vs. Explanatory Modeling in IS Research" und einem anschließenden Arbeitspapier mit dem Titel "To Explain or To Predict?" .

Dr. Shmuelis Argument ist, dass die Begriffe Vorhersage und Erklärung in einem statistischen Modellierungskontext zusammengewachsen sind und dass es in der statistischen Literatur an einer gründlichen Diskussion der Unterschiede mangelt. In der Zeitung kontrastiert sie beide und spricht über ihre praktischen Implikationen. Ich ermutige Sie, die Zeitungen zu lesen.

Die Fragen, die ich der Gemeinschaft der Praktizierenden stellen möchte, sind:

  • Wie definieren Sie eine Vorhersageübung gegenüber einer erklärenden / beschreibenden? Es wäre nützlich, wenn Sie über die spezifische Anwendung sprechen könnten.
  • Bist du jemals in die Falle gegangen, einen zu benutzen, wenn du den anderen benutzen willst? Das habe ich sicher. Woher weißt du, welche zu verwenden?
Wahalulu
quelle
2
Diese Frage soll geschlossen werden. Siehe: meta.stats.stackexchange.com/questions/213/… Ich sehe, dass es 2 Stimmen hat. Könnten die Upwähler oder das OP einen Kommentar dazu abgeben, warum sie möchten, dass die Frage im Meta-Thread offen bleibt?
9
Anstatt zu sagen, "dies sollte geschlossen sein. Jemand sollte es verteidigen", erklären Sie zunächst, warum Sie es geschlossen haben möchten. Zu vage? Dann bitte um Klarstellung. Das scheint mir eine vernünftige Frage zu sein. Der Fragesteller legt ein Papier vor und fragt nach dem Unterschied zwischen prädiktiver und erklärender Statistik. Die einzige Änderung, die ich an der Frage vornehmen würde, ist die Klärung der Frage, um die Abstimmung zu erleichtern.
JD Long
2
Ich habe im Meta-Thread bereits einen Grund angegeben. Ich glaube, dass "Metadiskussionen" über die Frage diese bestimmte Seite überladen würden.
2
@Srikant @JD Ich werde die Frage aufpeppen. Danke für die Rückmeldung. Ich denke, dass dies ein Thema ist, das eine Diskussion verdient.
Wahalulu
4
Könnten Sie den oben genannten Vorträgen / Beiträgen geeignete Links hinzufügen?
chl

Antworten:

39

In einem Satz

Bei der prädiktiven Modellierung dreht sich alles um das Thema "Was ist wahrscheinlich?", Während bei der erklärenden Modellierung das Thema "Was können wir dagegen tun?"

In vielen Sätzen

Ich denke, der Hauptunterschied ist, was mit der Analyse gemacht werden soll. Ich würde vorschlagen, dass die Erklärung für die Intervention viel wichtiger ist als die Vorhersage. Wenn Sie etwas tun möchten, um ein Ergebnis zu ändern, sollten Sie am besten erklären, warum es so ist, wie es ist. Wenn die erklärende Modellierung gut durchgeführt wurde, erfahren Sie, wie Sie eingreifen müssen (welche Eingabe angepasst werden sollte). Wenn Sie jedoch nur verstehen möchten, wie die Zukunft aussehen wird, ohne die Absicht (oder Fähigkeit), einzugreifen, ist eine prädiktive Modellierung mit größerer Wahrscheinlichkeit angebracht.

Als unglaublich loses Beispiel die Verwendung von "Krebsdaten".

Die prädiktive Modellierung mit "Krebsdaten" wäre angemessen (oder zumindest nützlich), wenn Sie die Krebsstationen verschiedener Krankenhäuser finanzieren würden. Sie müssen nicht wirklich erklären, warum Menschen an Krebs erkranken, sondern brauchen nur eine genaue Schätzung, wie viele Dienstleistungen benötigt werden. Erklärendes Modellieren würde hier wahrscheinlich nicht viel helfen. Wenn Sie beispielsweise wissen, dass Rauchen zu einem höheren Krebsrisiko führt, können Sie nicht allein entscheiden, ob Sie die Station A oder die Station B mit mehr Geldern unterstützen möchten.

Erläuternde Modellierung von „Krebsdaten“ wäre angemessen , wenn man will verringert die nationale Krebsrate - prädiktive Modellierung wäre ziemlich veraltet hier. Die Fähigkeit, die Krebsrate genau vorherzusagen, wird Ihnen kaum bei der Entscheidung helfen, wie Sie sie senken können. Zu wissen, dass Rauchen zu einem höheren Krebsrisiko führt, ist jedoch eine wertvolle Information. Wenn Sie die Raucherquote senken (z. B. indem Sie Zigaretten teurer machen), führt dies zu mehr Menschen mit einem geringeren Risiko, was (hoffentlich) zu einer erwarteten Verringerung des Krebsrisikos führt Preise.

Wenn ich das Problem auf diese Weise betrachte, würde sich die erklärende Modellierung hauptsächlich auf Variablen konzentrieren, die entweder direkt oder indirekt die Kontrolle über den Benutzer haben. Möglicherweise müssen andere Variablen erfasst werden, aber wenn Sie keine der Variablen in der Analyse ändern können, bezweifle ich, dass eine erklärende Modellierung hilfreich sein wird, außer vielleicht, um Ihnen den Wunsch zu geben, Kontrolle über diese Variablen zu erlangen oder Einfluss darauf zu nehmen welche sind wichtig. Die prädiktive Modellierung sucht nur nach Assoziationen zwischen Variablen, unabhängig davon, ob sie vom Benutzer gesteuert werden oder nicht. Sie müssen nur die Eingaben / Merkmale / unabhängigen Variablen / usw. kennen, um eine Vorhersage zu treffen, aber Sie müssen in der Lage sein, die Eingaben / Merkmale / unabhängigen Variablen / usw. zu ändern oder zu beeinflussen, um ein Eingreifen und Ändern eines Ergebnisses zu ermöglichen .

Wahrscheinlichkeitslogik
quelle
9
+1, gut gemacht! Ich hasse es, zu picken, aber ich möchte bemerken, dass die Vorhersage nicht über die Zukunft sein muss. Beispielsweise möchte ein Archäologe möglicherweise die Niederschlagsmenge in einem Gebiet zu einem Zeitpunkt in der Vergangenheit bestimmen (dh vorhersagen), indem er die verbleibenden Spuren (dh Auswirkungen von Niederschlägen) kennt.
gung - Reinstate Monica
@gung - Ich dachte, ich hätte meine Antwort so formuliert, dass dies nicht geschah. Klar, ich habe einen Spot verpasst :-)
Wahrscheinlichkeitslogik
Gute Antwort. Ich denke, wir müssen in vielen Fällen wissen, wie die Zukunft aussieht und warum. Angenommen, Sie möchten beim Studium der Kundenabwanderung wissen, wie viele Kunden (und genau welcher Kunde) im nächsten Monat abwandern und warum sie abwandern, damit das Marketing eingreifen kann, um sie zurückzuhalten. Dann müssen wir sowohl vorausschauend (um zukünftige Zahlen und Kunden zu erfahren) als auch erläuternd erklären, warum dies so ist, damit wir die Abwanderung reduzieren können. Haben wir also ein Hybridmodell von beiden oder reicht eines aus? Varty bringt es auf den Punkt, indem er sagt: "Die bekannte Beziehung kann aus einer erklärenden / beschreibenden Analyse oder einer anderen Technik hervorgehen"
Espanta
@gung Ich liebe Nitpick: Die Archäologin möchte Erfahrungen in ihrer Zukunft vorhersagen (dh vorhersagen, wo sie irgendwann in der Zukunft Spuren von vergangenen starken Niederschlägen finden wird).
Alexis
@Alexis, das ist sicherlich möglich, aber es ist auch möglich, dass dies nicht das primäre Forschungsinteresse des Archäologen ist und dass diese Daten bereits von anderen Forschern (Paläoklimatologen) gesammelt wurden ihr primäres theoretisches Interesse ( Gill, 200 ).
gung - Wiedereinstellung von Monica
30

Meiner Ansicht nach sind die Unterschiede wie folgt:

Erklärend / Beschreibend

Bei der Suche nach einer erklärenden / beschreibenden Antwort liegt der Hauptfokus auf den Daten, die wir haben, und wir versuchen, die zugrunde liegenden Beziehungen zwischen den Daten zu entdecken, nachdem das Rauschen berücksichtigt wurde.

Beispiel: Trifft es zu, dass regelmäßiges Training (z. B. 30 Minuten pro Tag) zu einer Blutdrucksenkung führt? Um diese Frage zu beantworten, sammeln wir möglicherweise Daten von Patienten über ihr Trainingsschema und ihre Blutdruckwerte im Laufe der Zeit. Das Ziel ist es zu sehen, ob wir Blutdruckschwankungen durch Schwankungen des Trainingsschemas erklären können .

Der Blutdruck wird nicht nur durch das Training durch eine Vielzahl anderer Faktoren beeinflusst, sondern auch durch die Menge an Natrium, die eine Person isst usw. Diese anderen Faktoren würden im obigen Beispiel als Lärm angesehen, da der Schwerpunkt auf dem Herausarbeiten der Beziehung zwischen dem Trainingsprogramm und liegt Blutdruck.

Prognose

Wenn wir eine Vorhersageübung durchführen, extrapolieren wir das Unbekannte unter Verwendung der bekannten Beziehungen zwischen den Daten, über die wir verfügen. Die bekannte Beziehung kann aus einer erklärenden / beschreibenden Analyse oder einer anderen Technik hervorgehen.

Beispiel: Wenn ich 1 Stunde pro Tag trainiere, in welchem ​​Ausmaß ist ein Blutdruckabfall wahrscheinlich? Um diese Frage zu beantworten, verwenden wir möglicherweise eine zuvor aufgedeckte Beziehung zwischen Blutdruck und Trainingsprogramm, um die Vorhersage durchzuführen.

Im obigen Kontext liegt der Fokus nicht auf der Erklärung, obwohl ein Erklärungsmodell beim Vorhersageprozess helfen kann. Es gibt auch nicht erklärende Ansätze (z. B. neuronale Netze), mit denen sich das Unbekannte gut vorhersagen lässt, ohne dass unser Wissen über die Art der zugrunde liegenden Beziehung zwischen den Variablen unbedingt erweitert wird.

varty
quelle
6
+1 Diese Antwort vermeidet weitgehend eine Verwechslung mit der Kausalität, indem sie die Sprache der Erklärung, Beschreibung und Beziehung verwendet. Dies verleiht ihm einen wünschenswerten Grad an Klarheit.
Whuber
4
Unter Erklärung haben Sie geschrieben: "Der primäre Fokus liegt auf den Daten, die wir haben." Ich denke, Sie versuchen zu sagen, dass die Aufgabe retrospektiv ist (im Gegensatz zur prospektiven Natur der Vorhersage). In der Erklärung (lies "kausale Erklärung") liegt ein großer Fokus auf Theorie- und Domänenwissen und die Daten werden verwendet, um diese Annahmen / Theorien zu testen. Im Gegensatz dazu ist die Vorhersage datengetriebener und Sie sind offener für Beziehungen, da Sie nicht nach Kausalität, sondern nach Korrelation suchen.
Galit Shmueli
@GalitShmueli Reg Theorie / Domain Wissen - Ja, ich stimme diesem Punkt zu. Ich habe lediglich versucht, die Vorhersage der Erklärung gegenüberzustellen, indem ich mich auf die meiner Meinung nach wichtigste Unterscheidung konzentrierte: die Extrapolation des Werts einer Variablen gegenüber der Aufdeckung der Beziehung zwischen Variablen. Dabei habe ich natürlich die Schuld, subtile Nuancen zwischen den beiden Paradigmen vernachlässigt zu haben.
Party
1
@varty Ich stimme Ihrem Punkt zu: In Erklärung / Beschreibung interessieren Sie sich für eine allgemeine / durchschnittliche Beziehung / Wirkung, während Sie in Vorhersage einzelne Werte vorhersagen möchten (nicht unbedingt Hochrechnung)
Galit Shmueli
19

Ein praktisches Problem, das hier auftritt, ist die variable Auswahl bei der Modellierung. Eine Variable kann eine wichtige erklärende Variable sein (z. B. statistisch signifikant), ist jedoch möglicherweise nicht für Vorhersagezwecke nützlich (dh ihre Einbeziehung in das Modell führt zu einer schlechteren Vorhersagegenauigkeit). Ich sehe diesen Fehler fast jeden Tag in veröffentlichten Zeitungen.

Ein weiterer Unterschied besteht in der Unterscheidung zwischen Hauptkomponentenanalyse und Faktoranalyse. PCA wird oft für die Vorhersage verwendet, ist aber zur Erklärung nicht so nützlich. FA beinhaltet den zusätzlichen Rotationsschritt, der durchgeführt wird, um die Interpretation (und damit die Erklärung) zu verbessern. Es gibt heute einen schönen Beitrag auf Galit Shmuelis Blog darüber .

Update: Ein dritter Fall tritt in Zeitreihen auf, in denen eine Variable eine wichtige erklärende Variable sein kann, aber für die Zukunft nicht verfügbar ist. Wohnungsbaudarlehen können zum Beispiel stark vom BIP abhängen, aber das ist für die Vorhersage zukünftiger Wohnungsbaudarlehen nur dann von Nutzen, wenn wir auch gute Vorhersagen zum BIP haben.

Rob Hyndman
quelle
3
Warum / wie würde eine wichtige erklärende Variable die Vorhersagegenauigkeit verringern?
3
@Srikant. Dies kann passieren, wenn die erklärende Variable eine schwache, aber signifikante Beziehung zur Antwortvariablen hat. Dann kann der Koeffizient statistisch signifikant, aber schwer abzuschätzen sein. Folglich kann die MSE von Vorhersagen zunehmen, wenn die Variable enthalten ist, verglichen mit dem Fall, wenn sie weggelassen wird. (Die Verzerrung wird mit ihrer Einbeziehung verringert, aber die Varianz wird erhöht.)
Rob Hyndman
Der erste Absatz ist ein sehr, sehr guter Punkt. Trotzdem ist manchmal noch schlimmer; hier PMID: 18052912 ist ein großartiges Beispiel dafür, dass manchmal ein besseres Modell für den Rauschanteil des Sets erstellt werden kann als für ein echtes - es ist offensichtlich, dass man ein gutes Modell für zufällige Daten erstellen kann, aber dies ist ein bisschen schockierend .
1
verzeihen Sie meine Ingorance, aber ist Rotation normalerweise nicht Teil von PCA und FA?
Richiemorrisroe
3
Eine statistische Signatur. Ein schwacher Prädiktor ist jedoch weder zur Vorhersage noch zur Erklärung wirksam. Wenn z. B. eine lineare Regressionslösung eine RSQ von 0,40 ohne Berücksichtigung des Prädiktors X1 hat und die Einbeziehung von X1 zu dieser RSQ 0,01 hinzufügt, ist X1 weder für die Vorhersage noch für die Erklärung "wichtig".
Rolando2
17

Obwohl einige Leute es am einfachsten finden, sich die Unterscheidung anhand des verwendeten Modells / Algorithmus vorzustellen (z. B. neuronale Netze = prädiktiv), ist dies nur ein bestimmter Aspekt der Unterscheidung zum Erklären / Vorhersagen. Hier ist eine Reihe von Folien , die ich in meinem Data Mining-Kurs verwende, um die lineare Regression aus beiden Blickwinkeln zu lehren. Selbst mit der linearen Regression allein und mit diesem winzigen Beispiel ergeben sich verschiedene Probleme, die zu unterschiedlichen Modellen für erklärende und vorhersagende Ziele führen (Auswahl von Variablen, Variablenauswahl, Leistungsmessungen usw.).

Galit

Galit Shmueli
quelle
5
Ist es aus Neugierde beabsichtigt, dass Sie in Ihrer Diskussion über die Regression für die Vorhersage (ab S. 33) Prädiktoren auswählen (Schritt 1), bevor Sie sie in Trainings- und Validierungsdatensätze unterteilen (Schritt 3)? Ich habe gedacht, dass das objektivste und ehrlichste Verfahren darin besteht, von Anfang an zu partitionieren, noch bevor man sich die Streudiagramme ansieht (Schritt 2). Wenn Regressoren auf der Grundlage des gesamten Datensatzes ausgewählt werden, würde dies dann nicht bei vielen Tests die offensichtlichen Signifikanzniveaus erhöhen, selbst wenn sie anschließend auf die Validierungsdaten angewendet werden?
whuber
Ich denke, die allgemeinere Frage ist, ob Sie eine Datenvisualisierung durchführen, bevor Sie eine Wartezeit einhalten. Wenn der Datensatz groß ist, spielt es keine Rolle. Bei einer kleinen Stichprobe ist die Verwendung der Visualisierung zur Auswahl von Prädiktoren in der Tat gefährlich. In meinen Folien meine ich nicht die Verwendung der Visualisierung für die Variablenauswahl. Bei "Select Predictors" handelt es sich im Allgemeinen um "Select a Potential Set of Available Predictors, die angemessen sind". Es geht mehr darum, Domänenwissen für die Auswahl einer angemessenen Gruppe einzubeziehen.
Galit Shmueli
Fortsetzung des Themas „Um zu erklären oder vorherzusagen“, ich habe eine ähnliche Frage hier . Ich würde mich freuen, wenn Sie einen Blick darauf werfen, denn die Frage basiert hauptsächlich auf Ihrer Arbeit.
Richard Hardy
Herr Professor Shmueli, Sie sagen auf Seite 291 Ihrer Arbeit zu diesem Thema, dass Sie nur die von Geisser, 1993, definierte „nichtstochastische Vorhersage“ betrachten. Wo finde ich die vollständige Definition der nichtstochastischen Vorhersage? Ich bin froh, auch einen neuen Beitrag zu schreiben, dachte aber, ich würde zuerst hier nachfragen.
user0
11

Beispiel: Ein klassisches Beispiel, das ich gesehen habe, ist die Vorhersage menschlicher Leistung. Die Selbstwirksamkeit (dh der Grad, in dem eine Person glaubt, eine Aufgabe gut ausführen zu können) ist oft ein starker Prädiktor für die Aufgabenleistung. Wenn Sie also die Selbstwirksamkeit zusammen mit anderen Variablen wie Intelligenz und dem Grad der vorherigen Erfahrung in eine multiple Regression einbeziehen, stellen Sie häufig fest, dass die Selbstwirksamkeit ein starker Prädiktor ist.

Dies hat einige Forscher dazu veranlasst, darauf hinzuweisen, dass die Selbstwirksamkeit die Leistung von Aufgaben verursacht. Und diese wirksamen Interventionen zielen darauf ab, das Selbstwirksamkeitsgefühl einer Person zu steigern.

Das alternative theoretische Modell sieht die Selbstwirksamkeit jedoch weitgehend als Folge der Aufgabenerfüllung. Dh wenn du gut bist, wirst du es wissen. In diesem Rahmen sollten sich die Interventionen auf die Steigerung der tatsächlichen Kompetenz und nicht auf die wahrgenommene Kompetenz konzentrieren.

Wenn Sie also eine Variable wie die Selbstwirksamkeit einbeziehen, kann dies die Vorhersage verbessern. Vorausgesetzt, Sie übernehmen das Modell der Selbstwirksamkeit als Konsequenz, sollte es nicht als Prädiktor herangezogen werden, wenn das Ziel des Modells darin besteht, kausale Prozesse aufzuklären, die die Leistung beeinflussen.

Dies wirft natürlich die Frage auf, wie ein kausaltheoretisches Modell entwickelt und validiert werden kann. Dies beruht eindeutig auf mehreren Studien, idealerweise mit experimentellen Manipulationen, und einem schlüssigen Argument über dynamische Prozesse.

Proximal versus distal : Ich habe ähnliche Probleme gesehen, als Forscher an den Auswirkungen distaler und proximaler Ursachen interessiert waren. Proximale Ursachen lassen sich tendenziell besser vorhersagen als distale Ursachen. Theoretisches Interesse könnte jedoch darin bestehen, die Wirkungsweise distaler und proximaler Ursachen zu verstehen.

Variablenauswahlproblem : Schließlich ist das Variablenauswahlproblem ein großes Thema in der sozialwissenschaftlichen Forschung. In jeder Studie gibt es unendlich viele Variablen, die hätten gemessen werden können, aber nicht. Die Interpretation von Modellen muss daher die Implikationen berücksichtigen, wenn theoretische Interpretationen vorgenommen werden.

Jeromy Anglim
quelle
In der Sozialwissenschaft gibt es auch ein Problem der "schwachen Hypothese" (zB ist der Effekt positiv gegen negativ). Und in diesem Beispiel für "Selbstwirksamkeit" können Sie dies als internen Leistungsprädiktor betrachten, den jede Person aufgebaut hat. Daher ähnelt es wahrscheinlich der Verwendung einer "Black-Box" -Vorhersage als erklärende Variable.
Wahrscheinlichkeitslogik
9

Statistical Modeling: Two Cultures (2001) von L. Breiman ist vielleicht die beste Arbeit zu diesem Thema. Seine wichtigsten Schlussfolgerungen (siehe auch die Antworten anderer prominenter Statistiker am Ende des Dokuments) lauten wie folgt:

  • "Eine höhere Vorhersagegenauigkeit ist mit zuverlässigeren Informationen über den zugrunde liegenden Datenmechanismus verbunden. Eine schwache Vorhersagegenauigkeit kann zu fragwürdigen Schlussfolgerungen führen."
  • "Algorithmische Modelle können eine bessere Vorhersagegenauigkeit liefern als Datenmodelle und bieten bessere Informationen über den zugrunde liegenden Mechanismus."
Nikita Zhiltsov
quelle
3
Nur um einen Link zu einer früheren verwandten Frage herzustellen: Die zwei Kulturen: Statistik vs. maschinelles Lernen?
CHL
3
Das Problem bei algorithmischen Modellen ist, dass sie schwer zu verstehen sind. Dies macht es schwierig, auftretende Probleme zu diagnostizieren und zu beheben. Ein Strukturmodell ist viel einfacher zu bewerten, da Sie wissen, wie jede Komponente aussehen sollte.
Wahrscheinlichkeitslogik
8

Ich habe ihre Arbeit nicht über die Zusammenfassung des verlinkten Artikels hinaus gelesen, aber ich bin der Meinung, dass die Unterscheidung zwischen "Erklärung" und "Vorhersage" weggeworfen und durch die Unterscheidung zwischen den Zielen des Praktikers ersetzt werden sollte, die entweder " kausal "oder" prädiktiv ". Im Allgemeinen denke ich, dass "Erklärung" ein so vages Wort ist, dass es fast nichts bedeutet. Ist das Hookesche Gesetz beispielsweise erklärend oder vorhersagend? Sind prädiktiv genaue Empfehlungssysteme am anderen Ende des Spektrums gute Kausalmodelle für explizite Artikelbewertungen? Ich denke, wir alle teilen die Intuition, dass das Ziel der Wissenschaft die Erklärung ist, während das Ziel der Technologie die Vorhersage ist. und diese Intuition geht in Anbetracht der Werkzeuge, die wir verwenden, wie betreute Lernalgorithmen, irgendwie verloren.

Abgesehen davon ist vielleicht das einzige Wort, das ich auf ein Modell anwenden würde, interpretierbar. Regressionen sind normalerweise interpretierbar; Neuronale Netze mit vielen Schichten sind oft nicht so. Ich denke, die Leute gehen manchmal naiv davon aus, dass ein interpretierbares Modell kausale Informationen liefert, während nicht interpretierbare Modelle nur prädiktive Informationen liefern. Diese Einstellung kommt mir einfach verwirrt vor.

John Myles White
quelle
7

Ich bin immer noch ein bisschen unklar, was die Frage ist. Allerdings liegt meiner Meinung nach der grundlegende Unterschied zwischen Vorhersage- und Erklärungsmodellen in der unterschiedlichen Ausrichtung.

Erklärende Modelle

Erklärungsmodelle haben per definitionem das Ziel, etwas in der realen Welt zu erklären. In den meisten Fällen möchten wir einfache und klare Erklärungen anbieten. Mit einfach meine ich, dass wir Sparsamkeit bevorzugen (erklären Sie die Phänomene mit so wenigen Parametern wie möglich) und mit sauber meine ich, dass wir Aussagen in der folgenden Form machen möchten: "Der Effekt der Änderung von um eine Einheit ändert um alles andere konstant halten ". Angesichts dieser Ziele einfacher und klarer Erklärungen versuchen Erklärungsmodelle, komplexe Modelle (unter Verwendung geeigneter Kriterien wie AIC) zu benachteiligen, und ziehen es vor, orthogonale unabhängige Variablen zu erhalten (entweder über kontrollierte Experimente oder über geeignete Datentransformationen).y βxyβ

Vorhersagemodelle

Das Ziel von Vorhersagemodellen ist es, etwas vorherzusagen. Daher konzentrieren sie sich weniger auf Sparsamkeit oder Einfachheit als vielmehr auf ihre Fähigkeit, die abhängige Variable vorherzusagen.

Das Obige ist jedoch eine künstliche Unterscheidung, da Erklärungsmodelle zur Vorhersage verwendet werden können und manchmal Vorhersagemodelle etwas erklären können.

user28
quelle
+1 für die Erwähnung von Komplexität, die in den Top-Antworten nicht direkt erwähnt wurde. Die Herausforderung ergibt sich jedoch, wenn Erklärungsmodelle für Interventionen verwendet werden. Wie kann man sicherstellen, dass die geschätzten Koeffizienten nicht verzerrt sind, was ein häufiges Problem ist, das aus Sparsamkeit resultiert?
Thomas Speidel
5

Wie andere bereits gesagt haben, ist die Unterscheidung ein wenig bedeutungslos, es sei denn, es geht um die Ziele des Forschers.

Brad Efron, einer der Kommentatoren von The Two Cultures , machte die folgende Bemerkung (wie in meiner früheren Frage besprochen ):

Vorhersage allein ist nur gelegentlich ausreichend. Die Post ist mit jeder Methode zufrieden, die anhand von handgeschriebenen Zeichnungen korrekte Adressen vorhersagt. Peter Gregory unternahm seine Studie zu Vorhersagezwecken, aber auch, um die medizinischen Grundlagen der Hepatitis besser zu verstehen. Die meisten statistischen Erhebungen zielen darauf ab, kausale Faktoren zu identifizieren.

Bestimmte Bereiche (z. B. Medizin) legen großen Wert auf die Modellanpassung als Erklärungsprozess (Verteilung usw.), um den zugrunde liegenden Prozess zu verstehen, der die Daten generiert. Andere Bereiche sind davon weniger betroffen und werden sich über ein "Black Box" -Modell freuen, das einen sehr hohen prädiktiven Erfolg hat. Dies kann auch in den Modellbauprozess einfließen.

Shane
quelle
5

In Bezug auf diese Frage könnte besser fokussiert werden. Haben die Leute jemals einen Begriff verwendet, als der andere angemessener war? Ja natürlich. Manchmal ist es aus dem Kontext klar genug, oder Sie möchten nicht pedantisch sein. Manchmal sind die Leute nur schlampig oder faul in ihrer Terminologie. Dies gilt für viele Menschen, und es geht mir bestimmt nicht besser.

Was hier von potentiellem Wert ist (Erklärung vs. Vorhersage im Lebenslauf), ist die Klärung der Unterscheidung zwischen den beiden Ansätzen. Kurz gesagt, die Unterscheidung konzentriert sich auf die Rolle der Kausalität. Wenn Sie eine Dynamik in der Welt verstehen und erklären möchten, warum etwas so passiert, wie es geschieht, müssen Sie die Kausalzusammenhänge zwischen den relevanten Variablen identifizieren. Zur Vorhersage können Sie die Kausalität ignorieren. Beispielsweise können Sie einen Effekt aus dem Wissen über seine Ursache vorhersagen. Sie können die Existenz der Ursache aus dem Wissen vorhersagen, dass die Wirkung eingetreten ist; und Sie können das ungefähre Ausmaß eines Effekts vorhersagen, indem Sie einen anderen Effekt kennen, der von derselben Ursache angetrieben wird. Warum sollte jemand in der Lage sein wollen, dies zu tun? Ihr Wissen darüber zu erweitern, was in Zukunft passieren könnte, damit sie entsprechend planen können. Beispielsweise möchte eine Bewährungshelferin oder ein Bewährungshelfer möglicherweise die Wahrscheinlichkeit vorhersagen können, dass ein Verurteilter nach seiner Bewährung erneut in die Irre geht. Dies reicht jedoch zur Erklärung nicht aus. Na sicher, Das Abschätzen des wahren Kausalzusammenhangs zwischen zwei Variablen kann äußerst schwierig sein. Darüber hinaus sind Modelle, die die tatsächlichen Kausalzusammenhänge erfassen (von denen angenommen wird, dass sie solche sind), für Prognosen oft schlechter geeignet. Warum also dann? Erstens geschieht das meiste in der Wissenschaft, wo das Verständnis um seiner selbst willen angestrebt wird. Zweitens können wir einen gewissen Einfluss auf die Auswirkungen ausüben, wenn wir die wahren Ursachen zuverlässig herausfinden und die Fähigkeit entwickeln, sie zu beeinflussen.

In Bezug auf die statistische Modellierungsstrategie gibt es keinen großen Unterschied. In erster Linie liegt der Unterschied in der Durchführung der Studie. Wenn Sie vorhersagen möchten, finden Sie heraus, welche Informationen den Benutzern des Modells zur Verfügung stehen, wenn sie die Vorhersage treffen müssen. Informationen, auf die sie keinen Zugriff haben, sind wertlos. Wenn sie höchstwahrscheinlich in der Lage sein möchten, auf einer bestimmten Ebene (oder in einem engen Bereich) der Prädiktoren zu prognostizieren, versuchen Sie, den abgetasteten Bereich des Prädiktors auf dieser Ebene zu zentrieren und dort eine Überabtastung durchzuführen. Wenn ein Bewährungsausschuss beispielsweise hauptsächlich Informationen zu Straftätern mit 2 Hauptverurteilungen erhalten möchte, können Sie Informationen zu Straftätern mit 1, 2 und 3 Verurteilungen sammeln. Andererseits erfordert die Beurteilung des Kausalzustands einer Variablen grundsätzlich ein Experiment. Das ist, experimentelle Einheiten müssen zufällig festgelegten Ebenen der erklärenden Variablen zugeordnet werden. Wenn Bedenken bestehen, ob die Art des Kausaleffekts von einer anderen Variablen abhängt oder nicht, muss diese Variable in das Experiment einbezogen werden. Wenn es nicht möglich ist, ein echtes Experiment durchzuführen, dann stehen Sie vor einer viel schwierigeren Situation, die zu komplex ist, um hier darauf einzugehen.

gung - Setzen Sie Monica wieder ein
quelle
1
Ich frage mich über die Rolle der Kausalität. Nehmen wir zum Beispiel an, wir haben einen Datensatz mit den Dimensionen und Volumina einer Menge von Blöcken und modellieren ihre Assoziation durch Regression von auf (und deren Wechselwirkungen) ). In welchem ​​Sinne kann gesagt werden, dass zwei Dimensionen und ein Volumen die dritte Dimension "verursachen"? Die Unterscheidung zwischen Erklärung und Vorhersage scheint daher auf etwas grundlegend Anderem zu beruhen; nämlich den Zweck der Analyse. In Bezug auf Ihren letzten Absatz gibt es viele Berichte auf dieser Website, die deutliche Unterschiede in der Strategie belegen. z ( x , y , v )(x,y,z,v)z(x,y,v)
Whuber
1
Sie haben Recht, dies hängt vom Zweck der Studie ab. Ich nehme an, ich habe das nicht explizit gesagt (ich habe nur darüber gesprochen, was Sie erreichen wollen ). Es ist auch richtig, dass die Erklärung nicht genau mit der Kausalität zu tun haben muss - etwas Analoges zur Kausalität passt auch (z. B. die Dimensionen - der Volumenfall ist eine logische / mathematische Implikation). Die meisten Erklärungsmodelle konzentrieren sich jedoch auf die Kausalität. Ich glaube, ich dachte, ich könnte so etwas der Einfachheit halber überspringen. Schließlich unterscheidet sich die Strategie während des Studiendesigns und der Datenerfassung, aber die Regression von y auf x ist ziemlich gleich.
gung - Wiedereinsetzung von Monica
Danke für Ihre Antwort. Durch anderen Austausch auf dieser Site habe ich gelernt, universelle Aussagen wie "die erklärendsten Modellierungszentren für Kausalität" so zu verstehen, dass sie den Hintergrund und die Erfahrung des Schriftstellers widerspiegeln, anstatt buchstäblich wahr zu sein. In den physischen und "harten" Wissenschaften mag diese Aussage richtig sein, aber in den sozialen und "weichen" Wissenschaften bezweifle ich, dass die Praktizierenden solch eine starke Behauptung aufstellen würden. Tatsächlich wird häufig angenommen, dass die untersuchten Beziehungen gemeinsame, verborgene Ursachen haben, aber nicht die direkte Ursache zwischen Regressoren und dem Regresseur widerspiegeln.
Whuber
@whuber es ist sicherlich wahr, dass meine Ideen von meinem Hintergrund und meiner Erfahrung beeinflusst werden. Wenn diese Antwort nicht hilfreich ist (ich stelle fest, dass noch keine Stimmen abgegeben wurden), kann ich sie löschen. Einige andere haben Antworten gegeben, die die Ideen abdecken, die ich vermitteln wollte.
gung - Wiedereinsetzung von Monica
@whuber - ein gutes Beispiel für weiche Ursachen ist "Rauchen verursacht Krebs" - obwohl ich sicher bin, dass Sie einen Kettenraucher finden könnten, der keinen Krebs hat. Der Begriff der Kausalität ist mit dem Zeitpunkt der Ereignisse verknüpft. Die Ursache muss vor der Wirkung liegen - was erklärt, warum das Cube-Beispiel keinen Sinn ergibt.
Wahrscheinlichkeitslogik
4

Die meisten Antworten haben dazu beigetragen, zu verdeutlichen, welche Modelle Erklärungs- und Vorhersagemodelle sind und warum sie unterschiedlich sind. Was bisher nicht klar ist, ist, wie sie sich unterscheiden. Also dachte ich, ich würde ein Beispiel anbieten, das nützlich sein könnte.

Nehmen wir an, wir sind daran interessiert, College GPA als Funktion der akademischen Vorbereitung zu modellieren. Als Maßnahmen zur akademischen Vorbereitung haben wir:

  1. Eignungstestergebnisse;
  2. HS GPA; und
  3. Anzahl der bestandenen AP-Tests.

Strategie für die Vorhersage

Wenn das Ziel die Vorhersage ist, könnte ich alle diese Variablen gleichzeitig in einem linearen Modell verwenden, und mein Hauptanliegen wäre die Vorhersagegenauigkeit. Welche der Variablen für die Vorhersage des GPA am nützlichsten ist, wird im endgültigen Modell berücksichtigt.

Strategie zur Erklärung

Wenn das Ziel die Erklärung ist, bin ich möglicherweise eher besorgt über die Datenreduktion und denke sorgfältig über die Korrelationen zwischen den unabhängigen Variablen nach. Mein Hauptanliegen wäre die Interpretation der Koeffizienten.

Beispiel

In einem typischen multivariaten Problem mit korrelierten Prädiktoren ist es nicht ungewöhnlich, "unerwartete" Regressionskoeffizienten zu beobachten. Angesichts der Wechselbeziehungen zwischen den unabhängigen Variablen wäre es nicht überraschend, für einige dieser Variablen Teilkoeffizienten zu sehen, die nicht in die gleiche Richtung wie ihre Beziehungen nullter Ordnung weisen und die möglicherweise nicht intuitiv und schwer zu erklären sind.

Angenommen, das Modell schlägt vor, dass (unter Berücksichtigung der Eignungsprüfungsergebnisse und der Anzahl der erfolgreich abgeschlossenen AP-Prüfungen) höhere Schulabschlüsse niedrigeren Hochschulabschlüssen zugeordnet werden. Dies ist kein Problem für die Vorhersage, stellt jedoch ein Erklärungsmodell vor Probleme, bei dem eine solche Beziehung schwer zu interpretieren ist . Dieses Modell liefert möglicherweise die besten Prognosen für die Stichprobe, trägt jedoch wenig zum Verständnis der Beziehung zwischen der akademischen Vorbereitung und dem Hochschulabschluss bei.

Stattdessen könnte eine erklärende Strategie eine Form der Variablenreduktion anstreben, z. B. Hauptkomponenten, Faktoranalyse oder SEM, um:

  1. Konzentrieren Sie sich auf die Variable, die das beste Maß für die "akademische Leistung" ist, und modellieren Sie das College-GPA für diese eine Variable. oder
  2. Verwenden Sie Faktor-Scores / latente Variablen, die sich aus der Kombination der drei Maßnahmen der akademischen Vorbereitung und nicht aus den ursprünglichen Variablen ergeben.

Strategien wie diese können die Vorhersagekraft des Modells verringern, aber sie liefern möglicherweise ein besseres Verständnis dafür, wie die akademische Vorbereitung mit dem College-GPA zusammenhängt.

Brett
quelle
Was das kontraintuitive Zeichen angeht, frage ich mich, ob es daran liegt, dass unsere Intuition die falsche Kovariate interpretiert - wie einen Haupteffekt, als wäre es ein verschachtelter oder ein Interaktionseffekt.
Wahrscheinlichkeitslogik
3

Ich möchte eine modellzentrierte Sicht auf die Angelegenheit bieten.

Vorausschauende Modellierung ist das, was in den meisten Analysen vorkommt. Beispielsweise erstellt ein Forscher ein Regressionsmodell mit einer Reihe von Prädiktoren. Die Regressionskoeffizienten repräsentieren dann prädiktive Vergleiche zwischen Gruppen. Der prädiktive Aspekt stammt aus dem Wahrscheinlichkeitsmodell: Die Folgerung erfolgt in Bezug auf ein Superpopulationsmodell, das möglicherweise die beobachtete Population oder Stichprobe hervorgebracht hat. Der Zweck dieses Modells ist die Vorhersage neuer Ergebnisse für Einheiten, die aus dieser Überbevölkerung hervorgehen. Oft ist dies ein vergebliches Ziel, da sich die Dinge, insbesondere in der sozialen Welt, ständig ändern. Oder weil es sich bei Ihrem Modell um seltene Einheiten wie Länder handelt und Sie keine neue Stichprobe ziehen können. Die Nützlichkeit des Modells in diesem Fall bleibt der Einschätzung des Analytikers überlassen.

Wenn Sie versuchen, die Ergebnisse auf andere Gruppen oder zukünftige Einheiten zu verallgemeinern, ist dies immer noch eine Vorhersage, aber von einer anderen Art. Wir können es zum Beispiel Prognose nennen. Der entscheidende Punkt ist, dass die Vorhersagekraft geschätzter Modelle standardmäßig beschreibender Natur ist. Sie vergleichen ein gruppenübergreifendes Ergebnis und stellen ein Wahrscheinlichkeitsmodell für diese Vergleiche auf, können jedoch nicht den Schluss ziehen, dass diese Vergleiche kausale Auswirkungen haben.

Der Grund ist, dass diese Gruppen unter Selektionsverzerrungen leiden können . Das heißt, sie können unabhängig von der Behandlung (der hypothetischen kausalen Intervention) naturgemäß eine höhere Punktzahl im Ergebnis des Interesses aufweisen. Oder sie können einer anderen Größe des Behandlungseffekts unterliegen als andere Gruppen. Aus diesem Grund handelt es sich bei den geschätzten Modellen, insbesondere für Beobachtungsdaten, im Allgemeinen um prädiktive Vergleiche und nicht um Erklärungen. Die Erklärung befasst sich mit der Identifizierung und Abschätzung der kausalen Wirkung und erfordert gut durchdachte Experimente oder den sorgfältigen Einsatz von Instrumentenvariablen. In diesem Fall werden die prädiktiven Vergleiche von jeglicher Auswahlverzerrung abgeschnitten und repräsentieren kausale Effekte. Das Modell kann daher als erklärend angesehen werden.

Ich stellte fest, dass das Denken in diesen Begriffen oft klargestellt hat, was ich wirklich tat, als ich ein Modell für einige Daten aufbaute.

U / min yoplait
quelle
+1, hier gibt es gute Informationen. Ich wäre jedoch vorsichtig in Bezug auf die Aussage "Vorausschauende Modellierung ist das, was in den meisten Analysen vorkommt". Ob Vorhersagemodelle gebräuchlicher sind oder nicht, hängt von der Disziplin usw. ab. Ich würde davon ausgehen, dass die meisten Modelle im akademischen Bereich erklärend sind und dass viele Modelle / Data Mining-Prozesse im privaten Bereich durchgeführt werden (z. B. Identifizierung potenzieller Stammkunden). ist vorhersagend. Ich könnte mich leicht irren, aber es wird schwer zu sagen sein, a priori, was die meiste Zeit passiert.
gung - Wiedereinsetzung von Monica
1
Meiner Ansicht nach ist die meiste Modellierung von Beobachtungsdaten vorhersagbar, auch wenn das Ziel erklärend ist. Wenn Sie die Zuordnung der Behandlung nicht randomisieren und tatsächlich eine Änderung in einem Versuchsaufbau auslösen, haben Ihre Regressionskoeffizienten nur einen beschreibenden Wert, dh sie bieten nur die Möglichkeit, Vergleiche vorherzusagen. Sie können beispielsweise den Schulerfolg anhand der demografischen Merkmale vorhersagen. Dies bedeutet jedoch nicht, dass diese demografischen Daten erklärende kausale Auswirkungen haben. Der Grund dafür ist, dass vergleichende Vorhersagen Selektionsverzerrungen ausgesetzt sind.
Lionel Henry
1

Wir können viel mehr lernen, als wir von Black-Box-Vorhersagemodellen denken. Der Schlüssel liegt darin, verschiedene Arten von Sensitivitätsanalysen und -simulationen durchzuführen, um wirklich zu verstehen, wie sich Änderungen im INPUT-Bereich auf das Modell OUTPUT auswirken. In diesem Sinne kann auch ein rein prädiktives Modell erklärende Erkenntnisse liefern. Dies ist ein Punkt, der von der Forschungsgemeinschaft oft übersehen oder missverstanden wird. Nur weil wir nicht verstehen, warum ein Algorithmus funktioniert, heißt das nicht, dass dem Algorithmus die Erklärungskraft fehlt ...

Insgesamt gesehen ist die prägnante Antwort von Wahrscheinlichkeitslogik absolut richtig ...

Gast mit einem Gedanken
quelle
Es ist unklar, welche "erklärenden Einsichten" auf diese Weise gewonnen werden können, wenn Sie mit diesem Satz Kausalität implizieren.
gung - Reinstate Monica
1

Sie unterscheidet zwischen erklärenden und prädiktiven Anwendungen in der Statistik. Sie sagt, wir sollten jedes Mal wissen, welche genau verwendet wird. Sie sagt, wir verwechseln sie oft, daher Zusammenbruch .

Ich stimme zu, dass in sozialwissenschaftlichen Anwendungen die Unterscheidung sinnvoll ist, in den Naturwissenschaften jedoch die gleiche ist und sein sollte. Ich nenne sie auch Inferenz vs. Prognose und stimme zu, dass man sie in den Sozialwissenschaften nicht verwechseln sollte.

Ich beginne mit den Naturwissenschaften. In der Physik konzentrieren wir uns auf das Erklären, wir versuchen zu verstehen, wie die Welt funktioniert, was was verursacht usw. Der Fokus liegt also auf Kausalität, Folgerung und so weiter. Andererseits ist der prädiktive Aspekt auch Teil des wissenschaftlichen Prozesses. Sie beweisen eine Theorie, die bereits Beobachtungen gut erklärt hat (denken Sie an die Stichprobe), indem Sie neue Beobachtungen vorhersagen und dann überprüfen, wie die Vorhersage funktioniert. Jede Theorie, der es an Vorhersagemöglichkeiten mangelt, wird große Probleme haben, sich in der Physik durchzusetzen. Deshalb sind Experimente wie die von Michelson-Morley so wichtig.

In den Sozialwissenschaften sind die zugrunde liegenden Phänomene leider instabil, nicht wiederholbar und nicht reproduzierbar. Wenn Sie den Zerfall von Kernen beobachten, erhalten Sie jedes Mal die gleichen Ergebnisse wie vor hundert Jahren. Nicht in Wirtschaft oder Finanzen. Auch die Experimentierfähigkeit ist sehr eingeschränkt, praktisch nicht vorhanden, wir beobachten und führen nur Stichproben durchvon Beobachtungen. Ich kann weitermachen, aber die Idee ist, dass die Phänomene, mit denen wir uns befassen, sehr instabil sind, daher sind unsere Theorien nicht von der gleichen Qualität wie in der Physik. Daher konzentrieren wir uns im Umgang mit der Situation entweder auf Schlussfolgerungen (wenn Sie versuchen zu verstehen, welche Ursachen welche Auswirkungen haben) oder auf Prognosen (sagen Sie einfach, was Ihrer Meinung nach mit dieser oder jener Struktur passieren wird, die die Struktur ignoriert).

Aksakal
quelle
0

Ein Strukturmodell würde eine Erklärung liefern und ein Vorhersagemodell würde eine Vorhersage liefern. Ein Strukturmodell hätte latente Variablen. Ein Strukturmodell ist ein gleichzeitiger Höhepunkt von Regression und Faktoranalyse

Die latenten Variablen manifestieren sich in Form von Multi-Kollinearität in Vorhersagemodellen (Regression).

Brijesh
quelle