Verstecken eines Regressionsmodells vor Professor (Regressionsschlachtschiff) [geschlossen]

11

Ich arbeite an einer Hausaufgabe, bei der mein Professor möchte, dass wir ein echtes Regressionsmodell erstellen, eine Datenprobe simulieren und er versucht, unser wahres Regressionsmodell mithilfe einiger der Techniken zu finden, die wir im Unterricht gelernt haben. Wir müssen dasselbe mit einem Datensatz tun, den er uns gegeben hat.

Er sagt, dass er in der Lage war, ein ziemlich genaues Modell für alle früheren Versuche zu erstellen, ihn zu betrügen. Es gab einige Studenten, die ein verrücktes Modell erstellten, aber er war wohl in der Lage, ein einfacheres Modell zu erstellen, das gerade ausreichte.

Wie kann ich ein schwieriges Modell entwickeln, das er finden kann? Ich möchte nicht super billig sein, indem ich 4 quadratische Terme, 3 Beobachtungen und massive Varianz mache? Wie kann ich einen scheinbar harmlosen Datensatz erstellen, unter dem sich ein zähes kleines Modell befindet?

Er hat einfach 3 Regeln zu befolgen:

  1. Ihr Datensatz muss eine "Y" -Variable und 20 "X" -Variablen enthalten, die als "Y", "X1", ..., "X20" gekennzeichnet sind.

  2. Ihre Antwortvariable muss aus einem linearen Regressionsmodell stammen, das erfüllt: Y ' i = β 0 + β 1 X ' i 1 + + β p - 1 X ' i , p - 1 + ϵ i wobei ϵ iN ( 0 , σ 2 ) und p 21 .Y

    Yi=β0+β1Xi1++βp1Xi,p1+ϵi
    ϵiN(0,σ2)p21
  3. Alle Variablen, die zum Erstellen von Y verwendet wurden, sind in Ihrem Datensatz enthalten.XY

Es sollte beachtet werden, dass nicht alle 20 X-Variablen in Ihrem realen Modell enthalten sein müssen

Ich dachte daran, so etwas wie das Fama-French 3-Faktor-Modell zu verwenden und ihn mit den Bestandsdaten (SPX und AAPL) beginnen zu lassen und diese Variablen in die kontinuierlich zusammengesetzten Renditen umzuwandeln, um sie ein wenig mehr zu verschleiern. Aber das lässt mich bei der ersten Beobachtung und den Zeitreihen (die wir im Unterricht noch nicht besprochen haben) mit fehlenden Werten zurück.

Unsicher, ob dies der richtige Ort ist, um so etwas zu posten. Ich hatte das Gefühl, es könnte eine gute Diskussion hervorrufen.

Edit: Ich frage auch nicht nach "vorgefertigten" Modellen. Ich bin neugieriger auf Themen / Tools in der Statistik, die es jemandem ermöglichen würden, dies zu tun.

Dylanjm
quelle
4
Es wird schwer, wenn er Sie auf ein lineares Modell beschränkt ...
Frank H.
4
Wenn Ihr Professor gewinnt, wenn Ihre wahren Koeffizienten innerhalb der 95% -Konfidenzintervalle liegen, hilft Multikollinearität nicht, da Multikollinearität CIs enorm aufbläst. Wenn andererseits die Differenz zwischen vorhergesagten und tatsächlichen Daten neuer Prädiktoren bewertet wird (die "tatsächlichen" Daten wurden mit Ihrem echten DGP generiert), ist Multikollinearität ein viel besserer Ansatz. Fazit: Finden Sie heraus, was die Zielfunktion ist, und passen Sie Ihren Ansatz an. (Dies gilt allgemeiner im Leben ...)
Stephan Kolassa
4
@dylanjm Könnten Sie Ihre Siegbedingungen genau definieren?
Matthew Gunn
11
Der Sinn einer solchen Übung besteht darin, dass Sie lernen, indem Sie versuchen, selbst an etwas zu denken . Wenn Sie hier Experten gegen ihn antreten, wird Ihre Möglichkeit, Ihr Gehirn tatsächlich zu dehnen, indem Sie verschiedene Informationen konsolidieren, die Sie in Bezug auf die Regression erhalten haben, drastisch reduziert (und dem Professor gegenüber unfair sein). Darüber hinaus kann an jeder seriösen Institution, die ihm Arbeiten als Ihre vorstellt, die teilweise von jemand anderem ausgeführt wurden, irgendwo zwischen akademischem Fehlverhalten und Betrug liegen (insbesondere, wenn es einen Teil Ihrer Note wert ist). Seien Sie sehr vorsichtig, wie Sie dies fragen.
Glen_b -Rate State Monica
4
Trotz der Popularität dieser Frage fühle ich mich verpflichtet, sie an dieser Stelle zu schließen, da dies auch nach wiederholten Aufforderungen zur Klärung der Spielregeln (nach welchen Kriterien wird der Erfolg bewertet, wie viele Proben müssen Sie liefern usw.) so wichtig ist Informationen sind in der Frage noch nicht enthalten. Unsere Ziele sind enger und zielgerichteter als "Diskussion generieren": Bitte wenden Sie sich an unser Hilfezentrum, um zu erfahren, welche Fragen wir auf dieser Website beantworten können.
whuber

Antworten:

6

Machen Sie den Fehlerbegriff einfach viel größer als den erläuterten Teil. Zum Beispiel: , wobei X i j =sin(i+j),i=1..1000undσ=1000000yi=Xi1+ϵiXij=sin(i+j)i=1..1000σ=1000000 . Natürlich müssen Sie sich daran erinnern, was Ihr Same war, damit Sie Ihrem Professor beweisen können, dass Sie Recht hatten und er Unrecht hatte.

Viel Glück beim Identifizieren der Phase mit diesem Rausch / Signal-Verhältnis.

Aksakal
quelle
Dies scheint für das CI-Gewinnkriterium nicht zu funktionieren, oder? Wir werden einfach riesige CIs bekommen, die sicherlich 1 abdecken. Und natürlich eine gewisse numerische Instabilität.
Stephan Kolassa
Instabilität wird kein Problem sein, alles was ich tue ist das Signal in Rauschen zu vergraben. Dies wird als reines weißes Rauschen herauskommen.
Aksakal
4
Dies wurde vom OP
Sextus Empiricus am
5

YϵiN(0,1)

X1=ϵ1+ϵ0X2=ϵ1+ϵ2y=X1+ϵ2

Beachten Sie den wahren DGP von , der nur X 1 enthältYX1X1YX1X2

Ihr Professor kann jedoch auf keinen Fall sagen, ob er nur nur X 2 einschließen sollX1X2X1X2 Y hier .

E[Y|X1]E[Y|X2]E[Y|X1,X2] E[Y|X1]YY usw. Sie können zurück argumentieren, dass es nicht das war, was er gesagt hat, da er sagt:

Die Variable Y muss aus einem linearen Regressionsmodell stammen, das (...) Variablen erfüllt, die zum Erstellen von Y (...) Ihres realen Modells (...) verwendet wurden.

Und Sie könnten im Unterricht eine gute Diskussion über Kausalität, was wahre DGP bedeutet und Identifizierbarkeit im Allgemeinen auslösen .

Carlos Cinelli
quelle
Sie schlagen ein Modell vor, das mit # 2 in der Post
konform ist
3

Verwenden Sie Variablen mit Multikollinearität und Heteroskedastizität wie Einkommen im Verhältnis zum Alter: Führen Sie einige schmerzhafte Feature-Engineering-Vorgänge durch, die Skalierungsprobleme verursachen. Das Linearitätsstück macht es wirklich schwieriger, aber es könnte schmerzhaft werden. Auch Ausreißer würden das Problem für ihn im Voraus erhöhen.

David
quelle
Ich denke, Heteroskedastizität liegt außerhalb des Rahmens des Problems, aber ich bin mir definitiv einig, dass Multikollinearität eine der besten Möglichkeiten ist, die wahre Spezifikation schwer zu finden.
JDL
2

X.5X.8X.12X.13 ). Für 20 Regressoren ist die Anzahl möglicher Interaktionen astronomisch groß und es wäre sehr schwierig, nur die von Ihnen eingeschlossenen zu finden.

Ruben van Bergen
quelle
0

Wählen Sie ein lineares Modell. Geben Sie ihm einen Datensatz, in dem die meisten Stichproben bei x = 0 liegen. Geben Sie ihm einige Proben um x = 1.000.000.

Das Schöne dabei ist, dass die Stichproben um x = 1.000.000 keine Ausreißer sind. Sie werden aus derselben Quelle generiert. Da die Skalen jedoch so unterschiedlich sind, passen Fehler um 1M nicht zu den Fehlern um 0.

Y.ich'=β0+β1X.ich1'+ϵich

Wir haben einen Datensatz von n Stichproben in der Nähe von x = 0. Wir werden 2 weitere Punkte in "weit genug" -Werten auswählen. Wir gehen davon aus, dass diese beiden Punkte einen Fehler aufweisen.

Ein "weit genug" -Wert ist ein solcher Wert, dass der Fehler für eine Schätzung, die in diesen beiden Punkten nicht direkt passiert, viel größer ist als der Fehler des restlichen Datensatzes.

Daher wählt die lineare Regression Koeffizienten aus, die diese beiden Punkte passieren und den Rest des Datensatzes verfehlen und sich vom unterstrichenen Modell unterscheiden.

Siehe folgendes Beispiel. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}

Dies ist im Format der WolfarmAlpha-Serie. In jedem Paar ist das erste Element x und das zweite wurde in Excel mit der Formel = A2 + NORMINV (RAND (), 0,2000) generiert.

Daher, β0=1,β1=1 und wir addieren normalverteiltes zufälliges Rauschen mit dem Mittelwert 0 und der Standardabweichung von 2000. Dies ist viel Rauschen nahe Null, aber ein kleines Rauschen nahe Millionen.

Mit Wolfram Alpha erhalten Sie die folgende lineare Regressiony=178433.x- -426805, was sich deutlich von der unterstrichenen Verteilung von unterscheidet y=x

DaL
quelle
Wie genau soll das funktionieren und welchen Effekt soll das haben?
Richard Hardy
Es funktioniert, da das Rauschen und die Präzision in den verschiedenen Skalen unterschiedlich funktionieren. Bei den hohen Zahlen, die extrem sind und einen einzelnen Punkt berücksichtigen, sollte die Linie direkt durch ihn verlaufen oder eine Menge Kosten verursachen. Etwas Rauschen reicht aus, um die richtigen Werte zu verfehlen. Gegen Null, wieder im Extremfall - keine Unterbrechung, Sie bleiben mit dem Rauschen zurück.
DaL
Verwenden Sie einen kleinen Wert für die Variable mit dem falschen Koeffizienten, und Sie zahlen die Kosten.
DaL
Yes, but why would it be hard for the professor to discover the model that generated this? It looks like a particularly easy task when there is so much variation in the given regressor.
Richard Hardy
Because no model will fit well both groups.
DaL