Ich arbeite an einer Hausaufgabe, bei der mein Professor möchte, dass wir ein echtes Regressionsmodell erstellen, eine Datenprobe simulieren und er versucht, unser wahres Regressionsmodell mithilfe einiger der Techniken zu finden, die wir im Unterricht gelernt haben. Wir müssen dasselbe mit einem Datensatz tun, den er uns gegeben hat.
Er sagt, dass er in der Lage war, ein ziemlich genaues Modell für alle früheren Versuche zu erstellen, ihn zu betrügen. Es gab einige Studenten, die ein verrücktes Modell erstellten, aber er war wohl in der Lage, ein einfacheres Modell zu erstellen, das gerade ausreichte.
Wie kann ich ein schwieriges Modell entwickeln, das er finden kann? Ich möchte nicht super billig sein, indem ich 4 quadratische Terme, 3 Beobachtungen und massive Varianz mache? Wie kann ich einen scheinbar harmlosen Datensatz erstellen, unter dem sich ein zähes kleines Modell befindet?
Er hat einfach 3 Regeln zu befolgen:
Ihr Datensatz muss eine "Y" -Variable und 20 "X" -Variablen enthalten, die als "Y", "X1", ..., "X20" gekennzeichnet sind.
Ihre Antwortvariable muss aus einem linearen Regressionsmodell stammen, das erfüllt: Y ' i = β 0 + β 1 X ' i 1 + … + β p - 1 X ' i , p - 1 + ϵ i wobei ϵ i ∼ N ( 0 , σ 2 ) und p ≤ 21 .
Alle Variablen, die zum Erstellen von Y verwendet wurden, sind in Ihrem Datensatz enthalten.
Es sollte beachtet werden, dass nicht alle 20 X-Variablen in Ihrem realen Modell enthalten sein müssen
Ich dachte daran, so etwas wie das Fama-French 3-Faktor-Modell zu verwenden und ihn mit den Bestandsdaten (SPX und AAPL) beginnen zu lassen und diese Variablen in die kontinuierlich zusammengesetzten Renditen umzuwandeln, um sie ein wenig mehr zu verschleiern. Aber das lässt mich bei der ersten Beobachtung und den Zeitreihen (die wir im Unterricht noch nicht besprochen haben) mit fehlenden Werten zurück.
Unsicher, ob dies der richtige Ort ist, um so etwas zu posten. Ich hatte das Gefühl, es könnte eine gute Diskussion hervorrufen.
Edit: Ich frage auch nicht nach "vorgefertigten" Modellen. Ich bin neugieriger auf Themen / Tools in der Statistik, die es jemandem ermöglichen würden, dies zu tun.
Antworten:
Machen Sie den Fehlerbegriff einfach viel größer als den erläuterten Teil. Zum Beispiel: , wobei X i j =sin(i+j),i=1..1000undσ=1000000yi=Xi1+ϵi Xij=sin(i+j) i=1..1000 σ=1000000 . Natürlich müssen Sie sich daran erinnern, was Ihr Same war, damit Sie Ihrem Professor beweisen können, dass Sie Recht hatten und er Unrecht hatte.
Viel Glück beim Identifizieren der Phase mit diesem Rausch / Signal-Verhältnis.
quelle
Beachten Sie den wahren DGP von , der nur X 1 enthältY X1 X1 Y X1 X2
Ihr Professor kann jedoch auf keinen Fall sagen, ob er nur nur X 2 einschließen sollX1 X2 X1 X2 Y hier .
Und Sie könnten im Unterricht eine gute Diskussion über Kausalität, was wahre DGP bedeutet und Identifizierbarkeit im Allgemeinen auslösen .
quelle
Verwenden Sie Variablen mit Multikollinearität und Heteroskedastizität wie Einkommen im Verhältnis zum Alter: Führen Sie einige schmerzhafte Feature-Engineering-Vorgänge durch, die Skalierungsprobleme verursachen. Das Linearitätsstück macht es wirklich schwieriger, aber es könnte schmerzhaft werden. Auch Ausreißer würden das Problem für ihn im Voraus erhöhen.
quelle
quelle
Wählen Sie ein lineares Modell. Geben Sie ihm einen Datensatz, in dem die meisten Stichproben bei x = 0 liegen. Geben Sie ihm einige Proben um x = 1.000.000.
Das Schöne dabei ist, dass die Stichproben um x = 1.000.000 keine Ausreißer sind. Sie werden aus derselben Quelle generiert. Da die Skalen jedoch so unterschiedlich sind, passen Fehler um 1M nicht zu den Fehlern um 0.
Wir haben einen Datensatz von n Stichproben in der Nähe von x = 0. Wir werden 2 weitere Punkte in "weit genug" -Werten auswählen. Wir gehen davon aus, dass diese beiden Punkte einen Fehler aufweisen.
Ein "weit genug" -Wert ist ein solcher Wert, dass der Fehler für eine Schätzung, die in diesen beiden Punkten nicht direkt passiert, viel größer ist als der Fehler des restlichen Datensatzes.
Daher wählt die lineare Regression Koeffizienten aus, die diese beiden Punkte passieren und den Rest des Datensatzes verfehlen und sich vom unterstrichenen Modell unterscheiden.
Siehe folgendes Beispiel. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}
Dies ist im Format der WolfarmAlpha-Serie. In jedem Paar ist das erste Element x und das zweite wurde in Excel mit der Formel = A2 + NORMINV (RAND (), 0,2000) generiert.
Daher,β0= 1 , β1= 1 und wir addieren normalverteiltes zufälliges Rauschen mit dem Mittelwert 0 und der Standardabweichung von 2000. Dies ist viel Rauschen nahe Null, aber ein kleines Rauschen nahe Millionen.
Mit Wolfram Alpha erhalten Sie die folgende lineare Regressiony= 178433. x - 426805 , was sich deutlich von der unterstrichenen Verteilung von unterscheidet y= x
quelle