Die Formulierung eines mathematischen Modells für ein Problem ist einer der subjektivsten Aspekte der Statistik, aber auch einer der wichtigsten. Was sind die besten Referenzen, die sich mit diesem entscheidenden, aber oft übersehenen Thema befassen? Und welcher berühmte Statistiker sagte etwas in der Art: "Lassen Sie die Daten das Modell leiten?"
Meiner Meinung nach ist Frank Harrells "Regression Modeling Strategies" eine gute Referenz. In der Tat ist es wahrscheinlich mein Lieblingsstatistikbuch.
Bisher habe ich nur weniger als die Hälfte des Buches studiert, aber ich habe viele gute Dinge daraus, zum Beispiel die Darstellung von Prädiktoren als Splines, um die Annahme von Linearität, mehrfacher Imputation für fehlende Daten und die Validierung des Bootstrap-Modells zu vermeiden. Vielleicht ist meine Lieblingssache an dem Buch das allgemeine Thema, dass ein wichtiges Ziel darin besteht, Ergebnisse zu erzielen, die sich auf neue Daten replizieren, nicht auf Ergebnisse, die nur auf den aktuellen Daten basieren.
Zusätzliche Vorteile sind Frank Harrells R-Paket rms, das es einfach macht, viele der im Buch beschriebenen Dinge zu tun, und seine Bereitschaft, hier und über R-Hilfe Fragen zu beantworten.
(+1) Ein gutes Begleitlehrbuch sind klinische Vorhersagemodelle von EW Steyerberg (insbesondere für diejenigen, die an klinischen Ergebnissen interessiert sind).
Chl
@chl Danke für den Vorschlag. Ich hatte noch nichts von diesem Buch gehört und werde interessiert sein, es mir anzusehen.
Mark999
2
@ user152509 Soweit ich weiß, wäre das Verteilen einer elektronischen Kopie illegal. Wenn Sie das Buch nicht kaufen oder aus einer Bibliothek beziehen können, können Sie einen Teil des Buches bei Google Books anzeigen. Auf der Webseite der Vanderbilt-Abteilung für Biostatistik finden Sie einige verwandte Ressourcen.
Mark999
6
Die letztere Aussage scheint im Geiste von Sims Kritik ((1980) Macroeconomics and Reality , Econometrica, Januar, S. 1-48.) Zu sein, in der er
... befürwortet die Verwendung von VAR-Modellen als theoretische Methode zur Schätzung wirtschaftlicher Beziehungen und ist damit eine Alternative zu den "unglaublichen Identifikationsbeschränkungen" in Strukturmodellen [aus dem Wiki]
Aber wahrscheinlich könnte S.Johansen (einer der Pioniere der Kointegrationsanalyse) demselben Geist folgen. Nach dem, was mir beigebracht wurde, ist die Modellbausequenz wie folgt:
Klären Sie das Hauptziel des Modells: Prognosen, strukturelle Beziehungen (Simulationen), kausale Beziehungen, latente Faktoren usw.
Abstraktes Modell ist die reale Welt, die "zu real" sein könnte, um sie vollständig in Ihrer Anwendung abzudecken, aber es gibt ein Gefühl (oder Verständnis) dafür, was vor sich geht
Das verbale Modell bringt eine Theorie mit oder übersetzt Ihr Verständnis in zu testende Aussagen und Hypothesen. In diesem Schritt werden empirische (manchmal auch stilisierte) Fakten gesammelt
Mathematisches Modell erst jetzt können Sie Ihre Theorie in Form von Gleichungen (Differenz, Differential) formulieren. Solche Modelle sind häufig deterministisch (obwohl man diesen Schritt mit dem letzteren zusammenführen und beispielsweise stochastische Differentialgleichungen berücksichtigen kann), die Sie benötigen. ..
Ökonometrisches (statistisches) Modell, das stochastische Teile, Theorie und Methoden der angewandten Statistik und Wahrscheinlichkeitstheorie sowie Mikro- und Makroökonometrie hinzufügt.
Irgendwelche Referenzen für "Sim" oder "Johansen"? Vielen Dank!
charles.y.zheng
2
Der Verweis auf "Lassen Sie die Daten das Modell leiten" kann George EP Box und Gwilym M. Jenkins zugeschrieben werden . In Kapitel 2 ihres klassischen Lehrbuchs Time Series Analysis: Forecasting and Control (1976) heißt es:
Das Erhalten von Stichprobenschätzungen der Autokorrelationsfunktion und des Spektrums sind nicht strukturelle Ansätze, analog zur Darstellung einer empirischen Verteilungsfunktion durch ein Histogramm. Sie sind beide Möglichkeiten, die Daten aus stationären Reihen "für sich selbst sprechen" zu lassen und bieten einen ersten Schritt bei der Analyse von Zeitreihen, ebenso wie ein Histogramm einen ersten Schritt bei der Verteilungsanalyse von Daten darstellen kann, der den Weg zu weist ein parametrisches Modell, auf dem die nachfolgende Analyse basiert.
Dieses von Box & Jenkins befürwortete Modellierungsverfahren, bei dem die Daten sprechen , wird in der gesamten Literatur zur ARIMA-Modellierung offensichtlich erwähnt. Zum Beispiel sagt Pankratz (1983) im Zusammenhang mit der Identifizierung vorläufiger ARIMA-Modelle:
Beachten Sie, dass wir uns den verfügbaren Daten nicht mit einer starren, vorgefassten Vorstellung davon nähern, welches Modell wir verwenden werden. Stattdessen lassen wir die verfügbaren Daten in Form einer geschätzten Autokorrelationsfunktion und einer partiellen Autokorrelationsfunktion mit uns sprechen.
Man kann also sagen, dass die Idee , die Daten das Modell leiten zu lassen, ein weit verbreitetes Merkmal in der Zeitreihenanalyse ist.
Ähnliche Begriffe finden sich jedoch auch in anderen (Unter-) Studienbereichen. Zum Beispiel hat @Dmitrij Celov korrekt auf Christopher Sims 'wegweisenden Artikel Macroeconomics and Reality (1980) verwiesen, der eine Reaktion gegen die Verwendung von simultanen Gleichungsmodellen in großem Maßstab in der Makroökonomie war.
Der traditionelle Ansatz in der Makroökonomie bestand darin, die Wirtschaftstheorie als Leitfaden für die Erstellung makroökonomischer Modelle zu verwenden. Oft bestanden die Modelle aus Hunderten von Gleichungen, und ihnen wurden Einschränkungen auferlegt, beispielsweise die Vorentscheidung der Vorzeichen einiger Koeffizienten. Sims (1980) kritisierte die Verwendung dieses A-priori- Wissens zur Erstellung makroökonomischer Modelle:
Die Tatsache, dass große makroökonomische Modelle dynamisch sind, ist eine reiche Quelle für falsche "a priori" -Einschränkungen.
Wie bereits von @Dmitrij Celov erwähnt, bestand der von Sims (1980) befürwortete alternative Ansatz darin, autoregressive Vektorgleichungen anzugeben, die (im Wesentlichen) auf den eigenen verzögerten Werten einer Variablen und auf verzögerten Werten anderer Variablen basieren.
Obwohl ich ein Fan des Gedankens bin, die Daten für sich selbst sprechen zu lassen , bin ich mir nicht sicher, ob diese Methodik vollständig auf alle Studienbereiche ausgedehnt werden kann . Betrachten Sie beispielsweise eine arbeitsökonomische Studie, um den Unterschied zwischen den Lohnsätzen zwischen Männern und Frauen in einem bestimmten Land zu erklären. Die Auswahl der Regressoren in einem solchen Modell wird wahrscheinlich von der Humankapitaltheorie geleitet . In anderen Kontexten kann die Gruppe der Regressoren basierend darauf ausgewählt werden, was uns interessiert und was der gesunde Menschenverstand uns sagt. Verbeek (2008) sagt:
Es wird empfohlen, den Satz potenziell relevanter Variablen eher auf der Grundlage wirtschaftlicher als statistischer Argumente auszuwählen . Obwohl manchmal etwas anderes vorgeschlagen wird, sind statistische Argumente niemals Sicherheitsargumente.
Eigentlich kann ich hier nur die Oberfläche kratzen, weil es ein so großes Thema ist, aber die beste Referenz, die mir beim Modellieren begegnet ist, ist Granger (1991). Wenn Ihr Hintergrund nicht ökonomisch ist, lassen Sie sich vom Titel des Buches nicht abschrecken. Der größte Teil der Diskussion findet im Zusammenhang mit der Modellierung von Wirtschaftsreihen statt, aber ich bin sicher, dass diejenigen aus anderen Bereichen viel davon haben und es nützlich finden würden.
Das Buch enthält ausgezeichnete Diskussionen über verschiedene Modellierungsmethoden wie:
Der von David Hendry vertretene allgemeine bis spezifische Ansatz (oder die LSE-Methodik).
Der spezifische bis allgemeine Ansatz.
Edward Leamers Methodik (normalerweise verbunden mit den Begriffen "Sensitivitätsanalyse (oder Analyse extremer Grenzen)" und "Bayesian" ).
Zufälligerweise wird auch der Ansatz von Christophers Sims behandelt.
Es ist erwähnenswert, dass Granger (1991) tatsächlich eine Sammlung von Artikeln ist. Anstatt zu versuchen, eine Kopie des Buches zu erhalten, können Sie natürlich das Inhaltsverzeichnis nachschlagen und versuchen, die Artikel selbst zu finden. (Siehe Link unten.)
Hoffe das hat sich als hilfreich erwiesen!
Verweise:
Box, GE & Jenkins, GM (1976). Zeitreihenanalyse: Prognose und Kontrolle. Holden-Day-Reihe in der Zeitreihenanalyse.
Die letztere Aussage scheint im Geiste von Sims Kritik ((1980) Macroeconomics and Reality , Econometrica, Januar, S. 1-48.) Zu sein, in der er
Aber wahrscheinlich könnte S.Johansen (einer der Pioniere der Kointegrationsanalyse) demselben Geist folgen. Nach dem, was mir beigebracht wurde, ist die Modellbausequenz wie folgt:
Hoffe das war hilfreich.
quelle
Der Verweis auf "Lassen Sie die Daten das Modell leiten" kann George EP Box und Gwilym M. Jenkins zugeschrieben werden . In Kapitel 2 ihres klassischen Lehrbuchs Time Series Analysis: Forecasting and Control (1976) heißt es:
Dieses von Box & Jenkins befürwortete Modellierungsverfahren, bei dem die Daten sprechen , wird in der gesamten Literatur zur ARIMA-Modellierung offensichtlich erwähnt. Zum Beispiel sagt Pankratz (1983) im Zusammenhang mit der Identifizierung vorläufiger ARIMA-Modelle:
Man kann also sagen, dass die Idee , die Daten das Modell leiten zu lassen, ein weit verbreitetes Merkmal in der Zeitreihenanalyse ist.
Ähnliche Begriffe finden sich jedoch auch in anderen (Unter-) Studienbereichen. Zum Beispiel hat @Dmitrij Celov korrekt auf Christopher Sims 'wegweisenden Artikel Macroeconomics and Reality (1980) verwiesen, der eine Reaktion gegen die Verwendung von simultanen Gleichungsmodellen in großem Maßstab in der Makroökonomie war.
Der traditionelle Ansatz in der Makroökonomie bestand darin, die Wirtschaftstheorie als Leitfaden für die Erstellung makroökonomischer Modelle zu verwenden. Oft bestanden die Modelle aus Hunderten von Gleichungen, und ihnen wurden Einschränkungen auferlegt, beispielsweise die Vorentscheidung der Vorzeichen einiger Koeffizienten. Sims (1980) kritisierte die Verwendung dieses A-priori- Wissens zur Erstellung makroökonomischer Modelle:
Wie bereits von @Dmitrij Celov erwähnt, bestand der von Sims (1980) befürwortete alternative Ansatz darin, autoregressive Vektorgleichungen anzugeben, die (im Wesentlichen) auf den eigenen verzögerten Werten einer Variablen und auf verzögerten Werten anderer Variablen basieren.
Obwohl ich ein Fan des Gedankens bin, die Daten für sich selbst sprechen zu lassen , bin ich mir nicht sicher, ob diese Methodik vollständig auf alle Studienbereiche ausgedehnt werden kann . Betrachten Sie beispielsweise eine arbeitsökonomische Studie, um den Unterschied zwischen den Lohnsätzen zwischen Männern und Frauen in einem bestimmten Land zu erklären. Die Auswahl der Regressoren in einem solchen Modell wird wahrscheinlich von der Humankapitaltheorie geleitet . In anderen Kontexten kann die Gruppe der Regressoren basierend darauf ausgewählt werden, was uns interessiert und was der gesunde Menschenverstand uns sagt. Verbeek (2008) sagt:
Eigentlich kann ich hier nur die Oberfläche kratzen, weil es ein so großes Thema ist, aber die beste Referenz, die mir beim Modellieren begegnet ist, ist Granger (1991). Wenn Ihr Hintergrund nicht ökonomisch ist, lassen Sie sich vom Titel des Buches nicht abschrecken. Der größte Teil der Diskussion findet im Zusammenhang mit der Modellierung von Wirtschaftsreihen statt, aber ich bin sicher, dass diejenigen aus anderen Bereichen viel davon haben und es nützlich finden würden.
Das Buch enthält ausgezeichnete Diskussionen über verschiedene Modellierungsmethoden wie:
Es ist erwähnenswert, dass Granger (1991) tatsächlich eine Sammlung von Artikeln ist. Anstatt zu versuchen, eine Kopie des Buches zu erhalten, können Sie natürlich das Inhaltsverzeichnis nachschlagen und versuchen, die Artikel selbst zu finden. (Siehe Link unten.)
Hoffe das hat sich als hilfreich erwiesen!
Verweise:
quelle