Der Versuch, die Anzahl der Besuche anhand der demografischen Daten und des Service zu berechnen. Die Daten sind sehr verzerrt.
Histogramme:
qq-Diagramme (links ist log):
m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)
city
und service
sind Faktorvariablen.
Ich bekomme einen niedrigen p-Wert *** für alle Variablen, aber ich bekomme auch ein niedriges r-Quadrat von 0,05. Was soll ich machen? Würde ein anderes Modell funktionieren, wie Exponential oder so?
Antworten:
Die lineare Regression ist nicht die richtige Wahl für Ihr Ergebnis, vorausgesetzt:
Begrenzte abhängige Variablenmodelle für Zähldaten
Die Schätzstrategie, aus der Sie auswählen können, wird durch die "Struktur" Ihrer Ergebnisvariablen bestimmt. Das heißt, wenn Ihre Ergebnisvariable in den Werten begrenzt ist, die sie annehmen kann (dh wenn es sich um eine begrenzte abhängige Variable handelt ), müssen Sie ein Modell auswählen, bei dem die vorhergesagten Werte in den möglichen Bereich für Ihr Ergebnis fallen. Während manchmal lineare Regression eine gute Annäherung für begrenzte abhängige Variablen ist (zum Beispiel im Fall von binärem Logit / Probit), ist dies häufig nicht der Fall. Geben Sie verallgemeinerte lineare Modelle ein . In Ihrem Fall haben Sie mehrere Möglichkeiten, da die Ergebnisvariable Zähldaten sind:
Die Wahl wird normalerweise empirisch bestimmt. Ich werde im Folgenden kurz auf die Auswahl zwischen diesen Optionen eingehen.
Poisson vs. negatives Binomial
ZIP vs. ZINB
Eine mögliche Komplikation ist die Nullinflation, die hier ein Problem sein könnte. Hier kommen die Modelle ZIP und ZINB mit Null-Inflation ins Spiel. Bei diesen Modellen wird davon ausgegangen, dass der Prozess zum Generieren der Nullwerte von dem Prozess zum Generieren der anderen Nicht-Null-Werte getrennt ist. Wie zuvor ist ZINB geeignet, wenn das Ergebnis übermäßige Nullen aufweist und überdispers ist, während ZIP geeignet ist, wenn das Ergebnis übermäßige Nullen aufweist, aber bedingter Mittelwert = bedingte Varianz. Bei den Modellen mit Null-Inflation müssen Sie zusätzlich zu den oben aufgeführten Modellkovariaten an Variablen denken, die möglicherweise die überschüssigen Nullen erzeugt haben, die Sie im Ergebnis gesehen haben. Auch hier gibt es statistische Tests, die mit der Ausgabe dieser Modelle geliefert werden (manchmal müssen Sie sie möglicherweise angeben, wenn Sie einen Befehl ausführen), mit denen Sie dies tun könnenθ
Schließlich verwende ich kein R, aber die Seite mit den IDRE-Datenanalysebeispielen von UCLA kann Sie bei der Anpassung dieser Modelle unterstützen.
[Von einem anderen Benutzer ohne ausreichenden Ruf bearbeiten, um einen Kommentar abzugeben: In diesem Dokument wird erläutert, warum Sie den Vuong-Test nicht zum Vergleichen eines Null-Inflations-Modells verwenden sollten, und es werden Alternativen bereitgestellt.
P. Wilson, "Der Missbrauch des Vuong-Tests für nicht verschachtelte Modelle zum Testen auf Null-Inflation." Economics Letters, 2015, vol. 127, Ausgabe C, 51-53 ]
quelle
Versuchen Sie es mit einem verallgemeinerten linearen Modell mit Gammaverteilung. Es kann sich Ihrer abhängigen Variablen gut annähern, da es positiv ist und bei x = 0 gleich Null ist. In einem ähnlichen Fall habe ich R und GLM mit einigem Erfolg verwendet.
quelle
Alle statistischen Annahmen beziehen sich auf die Fehler eines Modells. Wenn Sie ein einfaches Modell mit 6 Indikatorreihen erstellen, die den Wochentag widerspiegeln, werden Sie feststellen, dass die Fehlerverteilung viel besser ist. Nehmen Sie monatliche Effekte und Feiertagseffekte (VOR, EIN UND NACH) auf, und die Verteilung von Fehlern wird noch schöner. Das Hinzufügen von Indikatoren für den Tag des Monats, die Woche des Monats, lange Wochenenden und die Dinge wird noch schöner.
Schauen Sie sich die einfache Methode zur Vorhersage der Anzahl der Gäste anhand aktueller und historischer Daten und /stats//search?q=user%3A3382+daily+data an, um mehr Spaß beim Lesen zu haben.
quelle