Regression mit verzerrten Daten

11

Der Versuch, die Anzahl der Besuche anhand der demografischen Daten und des Service zu berechnen. Die Daten sind sehr verzerrt.

Histogramme:

Histogramme

qq-Diagramme (links ist log):

qq plots - rechts ist log

m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)

cityund servicesind Faktorvariablen.

Ich bekomme einen niedrigen p-Wert *** für alle Variablen, aber ich bekomme auch ein niedriges r-Quadrat von 0,05. Was soll ich machen? Würde ein anderes Modell funktionieren, wie Exponential oder so?

pxxd
quelle
Können Sie uns etwas mehr über den Datenerzeugungsprozess erzählen, da ich ursprünglich dachte, dass eine hohe Häufigkeit von Nullen tatsächlich eine hohe Häufigkeit von Zweien ist? Welche Art von Service wollten die Leute in Anspruch nehmen und was ist das "ultimative Ziel" der Analyse? Versuchen Sie, die Anzahl (Anzahl) der Besuche anhand einer Reihe von Merkmalen (dh als Maß für die Servicequalität) vorherzusagen? Müssen Sie das Ergebnis für die Beantwortung Ihrer Forschungsfrage unbedingt als Anzahl beibehalten, oder können Sie die Ergebnisvariable in weniger, aber größere Kategorien unterteilen?
Marquis de Carabas
2
Sie haben Zähldaten. Durchsuchen Sie diese Site nach Poisson-Regression.
kjetil b halvorsen

Antworten:

10

Die lineare Regression ist nicht die richtige Wahl für Ihr Ergebnis, vorausgesetzt:

  1. Die Ergebnisvariable ist nicht normal verteilt
  2. Die Ergebnisvariable ist in den Werten begrenzt, die sie annehmen kann (Zähldaten bedeuten, dass die vorhergesagten Werte nicht negativ sein können).
  3. Was scheint eine hohe Häufigkeit von Fällen mit 0 Besuchen zu sein

Begrenzte abhängige Variablenmodelle für Zähldaten

Die Schätzstrategie, aus der Sie auswählen können, wird durch die "Struktur" Ihrer Ergebnisvariablen bestimmt. Das heißt, wenn Ihre Ergebnisvariable in den Werten begrenzt ist, die sie annehmen kann (dh wenn es sich um eine begrenzte abhängige Variable handelt ), müssen Sie ein Modell auswählen, bei dem die vorhergesagten Werte in den möglichen Bereich für Ihr Ergebnis fallen. Während manchmal lineare Regression eine gute Annäherung für begrenzte abhängige Variablen ist (zum Beispiel im Fall von binärem Logit / Probit), ist dies häufig nicht der Fall. Geben Sie verallgemeinerte lineare Modelle ein . In Ihrem Fall haben Sie mehrere Möglichkeiten, da die Ergebnisvariable Zähldaten sind:

  1. Poisson-Modell
  2. Negatives Binomialmodell
  3. Zero Inflated Poisson (ZIP) Modell
  4. ZINB-Modell (Zero Inflated Negative Binomial)

Die Wahl wird normalerweise empirisch bestimmt. Ich werde im Folgenden kurz auf die Auswahl zwischen diesen Optionen eingehen.


Poisson vs. negatives Binomial

θH0:θ=0H1:θ0θ

ZIP vs. ZINB

Eine mögliche Komplikation ist die Nullinflation, die hier ein Problem sein könnte. Hier kommen die Modelle ZIP und ZINB mit Null-Inflation ins Spiel. Bei diesen Modellen wird davon ausgegangen, dass der Prozess zum Generieren der Nullwerte von dem Prozess zum Generieren der anderen Nicht-Null-Werte getrennt ist. Wie zuvor ist ZINB geeignet, wenn das Ergebnis übermäßige Nullen aufweist und überdispers ist, während ZIP geeignet ist, wenn das Ergebnis übermäßige Nullen aufweist, aber bedingter Mittelwert = bedingte Varianz. Bei den Modellen mit Null-Inflation müssen Sie zusätzlich zu den oben aufgeführten Modellkovariaten an Variablen denken, die möglicherweise die überschüssigen Nullen erzeugt haben, die Sie im Ergebnis gesehen haben. Auch hier gibt es statistische Tests, die mit der Ausgabe dieser Modelle geliefert werden (manchmal müssen Sie sie möglicherweise angeben, wenn Sie einen Befehl ausführen), mit denen Sie dies tun könnenθ

θH0:θ=0H1:θ0H0:Excess zeroes is not a result of a separate processH1:Excess zeroes is a result of a separate process


θθ

Schließlich verwende ich kein R, aber die Seite mit den IDRE-Datenanalysebeispielen von UCLA kann Sie bei der Anpassung dieser Modelle unterstützen.

[Von einem anderen Benutzer ohne ausreichenden Ruf bearbeiten, um einen Kommentar abzugeben: In diesem Dokument wird erläutert, warum Sie den Vuong-Test nicht zum Vergleichen eines Null-Inflations-Modells verwenden sollten, und es werden Alternativen bereitgestellt.

P. Wilson, "Der Missbrauch des Vuong-Tests für nicht verschachtelte Modelle zum Testen auf Null-Inflation." Economics Letters, 2015, vol. 127, Ausgabe C, 51-53 ]

Marquis de Carabas
quelle
Eine Mehrheit sind 2 ~ Besuche. Alle Aufzeichnungen sind mehr als 1 Besuch
pxxd
Ich bekomme ähnliche QQ-Diagramme für Glm Poisson und Gamma. Ist das in Ordnung?
pxxd
3
1. Die Ergebnisvariable nicht normalverteilt sind nicht per se ein gültiges Argument gegen die lineare Regression. Eine Reihe von Regressionsannahmen, die gute Eigenschaften des Schätzers garantieren (wie Konsistenz und asymptotische Normalität), enthält keine Normalität der Ergebnisvariablen (und nicht einmal die Normalität von Fehlern).
Richard Hardy
2

Versuchen Sie es mit einem verallgemeinerten linearen Modell mit Gammaverteilung. Es kann sich Ihrer abhängigen Variablen gut annähern, da es positiv ist und bei x = 0 gleich Null ist. In einem ähnlichen Fall habe ich R und GLM mit einigem Erfolg verwendet.

Diego
quelle
Visits d
1
Nein, ich glaube, Sie sollten keinen Protokolllink verwenden, sondern einen Identitätslink. Aber überprüfen Sie zuerst, wie gut die Gammafunktion zu Ihrer Verteilung passt.
Diego
0

Alle statistischen Annahmen beziehen sich auf die Fehler eines Modells. Wenn Sie ein einfaches Modell mit 6 Indikatorreihen erstellen, die den Wochentag widerspiegeln, werden Sie feststellen, dass die Fehlerverteilung viel besser ist. Nehmen Sie monatliche Effekte und Feiertagseffekte (VOR, EIN UND NACH) auf, und die Verteilung von Fehlern wird noch schöner. Das Hinzufügen von Indikatoren für den Tag des Monats, die Woche des Monats, lange Wochenenden und die Dinge wird noch schöner.

Schauen Sie sich die einfache Methode zur Vorhersage der Anzahl der Gäste anhand aktueller und historischer Daten und /stats//search?q=user%3A3382+daily+data an, um mehr Spaß beim Lesen zu haben.

IrishStat
quelle
1
Diese Antwort scheint die tatsächlich gestellte Frage nicht zu betreffen. Könnten Sie die Verbindung explizit machen?
whuber
Ich nahm seine DVISITS, um tägliche Daten vorzuschlagen ... wenn das nicht so ist, widerrufe ich meine Antwort. Wenn es sich wirklich um einen Querschnitt handelt, sollte er vielleicht in Betracht ziehen, die Daten nach Hauptklassifikationen zu schichten.
IrishStat