Ich kann diese Grafik nicht interpretieren. Meine abhängige Variable ist die Gesamtzahl der Kinokarten, die für eine Show verkauft werden. Die unabhängigen Variablen sind die Anzahl der Tage vor der Show, Dummy-Variablen für die Saisonalität (Wochentag, Monat des Jahres, Feiertag), Preis, bis zum Datum verkaufte Tickets, Filmbewertung, Filmtyp (Thriller, Komödie usw. als Dummy) ). Bitte beachten Sie auch, dass die Kapazität der Filmhalle festgelegt ist. Das heißt, es kann maximal x Personen aufnehmen. Ich erstelle eine lineare Regressionslösung, die nicht zu meinen Testdaten passt. Also dachte ich daran, mit der Regressionsdiagnostik zu beginnen. Die Daten stammen aus einer einzelnen Filmhalle, für die ich die Nachfrage vorhersagen möchte.
Das ist ein multivariater Datensatz. Für jedes Datum gibt es 90 doppelte Zeilen, die Tage vor der Show darstellen. Für den 1. Januar 2016 gibt es also 90 Datensätze. Es gibt eine Variable 'lead_time', die mir die Anzahl der Tage vor der Show angibt. Wenn also für den 1. Januar 2016 "lead_time" den Wert 5 hat, bedeutet dies, dass die Tickets bis 5 Tage vor dem Ausstellungsdatum verkauft werden. In der abhängigen Variablen "Gesamtzahl der verkauften Tickets" habe ich 90-mal den gleichen Wert.
Gibt es als Nebenbemerkung ein Buch, in dem erklärt wird, wie die Restdarstellung interpretiert und das Modell anschließend verbessert wird?
quelle
Antworten:
Die Handlung ist sehr dicht, so dass es nicht einfach ist, alle Trends zu erkennen. Sie können alternative Tests für Hetoroskedastizität und Autokorrelation durchführen, um zusätzliche Diagnosen zu erhalten.
Was sichtbar ist, ist, dass über die ersten 100 Werte oder so die Varianz des Residuums zunimmt, was auf eine Hetoroskedastizität hinweisen kann. Danach scheint die Varianz wieder abzunehmen. Dieses etwas nichtlineare Verhalten der Varianz kann auch auf die Notwendigkeit einer Differenzfunktionsform hinweisen (also möglicherweise polynomisch statt linear). Ein weiteres Indiz dafür ist der Trend bei den Residuen, den Sie am oberen Ende der angepassten Werte beobachten (es gibt keine positiven Residuen mehr).
quelle
Ihr Restdiagramm weist ein bestimmtes Muster auf, wobei mehrere Linien mit zunehmenden angepassten Werten nach unten tendieren. Dieses Muster kann auftreten, wenn Sie feste / zufällige Effekte in Ihrem Modell nicht berücksichtigen und die festen Effekte mit erklärenden Variablen korreliert sind. Betrachten Sie das folgende Beispiel:
Dies führt zu folgendem Rest- / Anpassungsdiagramm:
Möglicherweise sehen Sie etwas Ähnliches, wenn Sie beispielsweise die SAT-Werte für die Eintrittseinnahmen für mehrere High Schools zurückgegangen sind, aber keine festen Effekte für die High School berücksichtigt haben. Jede Schule hat unterschiedliche Grundeinkommen (dh feste Effekte) und mittlere SAT-Werte, die wahrscheinlich korrelieren.
Einschließlich gruppenfester Effekte erhalten wir
was eine viel bessere Rest- / Anpassungsfläche ergibt:
quelle
Das Restdiagramm sieht unter dem Gesichtspunkt der Standard-OLS-Regression (linear) ungewöhnlich aus. Es gibt zum Beispiel einen Hinweis auf Heteroskedastizität, insbesondere, dass die Ausbreitung der Residuen in der Mitte größer ist als an den beiden Enden. Dies ist jedoch nicht das eigentliche Problem.
yd d d+1 (Entschuldigung, beim erneuten Lesen der Frage sehen Sie, dass Sie bereits eine bis zum Datum verkaufte Variable enthalten haben.)Bei der Modellierung Ihrer Daten müssen möglicherweise weitere Probleme behoben werden. Dies sind ziemlich fortgeschrittene Themen; Wenn Sie mit ihnen nicht vertraut sind, müssen Sie möglicherweise mit einem statistischen Berater zusammenarbeiten.
quelle
fitdistrplus