Was ist bei der Regressionsanalyse der Unterschied zwischen 'Datenerzeugungsprozess' und 'Modell'?
econometrics
Fliegende Schweine
quelle
quelle
Antworten:
Wir alle haben ein gutes Gespür dafür, was "Modell" bedeuten könnte, auch wenn die technische Definition von Fach zu Fach unterschiedlich sein wird. Um dies mit DGP zu vergleichen, habe ich mir zunächst die fünf besten Treffer (mit zwei Treffern mit demselben Autor als einem) in Googling "Datengenerierungsprozess" angesehen.
Ein Papier , wie die US Air Force tatsächlich schafft Daten in Logistikunterstützung.
Zusammenfassung eines in Environment and Planning A veröffentlichten Papers darüber, wie "synthetische Mikropopulationen" über Computer "Simulationsmodelle" erzeugt werden.
Eine Webseite zur "Erzeugung synthetischer Daten"; das heißt, Simulation, "um die Auswirkungen bestimmter Datenmerkmale auf ... Modelle zu untersuchen."
Zusammenfassung eines Konferenzbeitrags zum Thema Data Mining mit der Behauptung, dass "Daten in Datenbanken das Ergebnis eines zugrunde liegenden Datenerzeugungsprozesses (dgp) sind".
Ein Buchkapitel , das die Daten von Interesse als "aus einer Transformation eines zugrunde liegenden [stochastischen] Prozesses V t ... hervorgegangen, von dem einige oder alle [von denen] unbemerkt bleiben können ..." charakterisiert.Wt Vt
Diese Verknüpfungen weisen drei leicht unterschiedliche, aber eng verwandte Verwendungen des Begriffs "Datenerzeugungsprozess" auf. Das häufigste Problem ist die statistische Simulation. Die anderen beziehen sich auf die tatsächlichen Mittel, mit denen Daten in einer laufenden Situation (Logistik) erstellt werden, und auf ein Wahrscheinlichkeitsmodell für ein laufendes Datenerstellungsverfahren, das nicht direkt analysiert werden soll. Im letzten Fall unterscheidet der Text einen nicht beobachtbaren stochastischen Prozess, der es dennoch ist mathematisch modelliert wird , von den tatsächlichen Zahlen, die analysiert werden.
Dies deutet darauf hin, dass zwei leicht unterschiedliche Antworten haltbar sind:
Im Zusammenhang mit der Simulation oder der Erstellung von "synthetischen" Daten für die Analyse ist der "Datenerzeugungsprozess" eine Möglichkeit, Daten für die anschließende Untersuchung zu erstellen, üblicherweise mit Hilfe des Pseudozufallszahlengenerators eines Computers. Die Analyse wird implizit ein Modell übernehmen, das die mathematischen Eigenschaften dieses DGP beschreibt.
Im Rahmen der statistischen Analyse möchten wir möglicherweise ein Phänomen der realen Welt (DGP) von den Beobachtungen unterscheiden, die analysiert werden. Wir haben Modelle sowohl für das Phänomen als auch für die Beobachtungen sowie ein Modell dafür, wie die beiden miteinander verbunden sind.
quelle
Die DGP ist das wahre Modell. Das Modell ist das, was wir mit unseren besten Fähigkeiten versucht haben, um den wahren Zustand der Natur darzustellen. Das DGP wird durch "Rauschen" beeinflusst. Es gibt viele Arten von Lärm:
Wenn Sie diese 6 Punkte nicht kontrollieren, verringert sich Ihre Fähigkeit, den wahren DGP zu identifizieren.
quelle
Die Antwort von Whuber ist ausgezeichnet, aber es sollte betont werden, dass ein statistisches Modell nicht in jeder Hinsicht dem datengenerierenden Modell ähneln muss, um ein geeignetes Modell für die inferentielle Untersuchung von Daten zu sein. Liu und Meng erläutern diesen Punkt mit großer Klarheit in ihrem kürzlich erschienenen Artikel von arXived ( http://arxiv.org/abs/1510.08539 ):
quelle
DGP ist die virtuelle Realität und ein einzigartiges Rezept für die Simulation. Ein Modell ist eine Sammlung von DGP oder Möglichkeiten, wie die Daten generiert werden könnten.
Lesen Sie die erste Seite dieses Minikurses von Russell Davidson:
http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf
quelle