Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken):
id, age, income, gender, job category, monthly spend
in dem monthly spend
ist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, und der vorherzusagende Datensatz (der id, age, income, gender, job category
keine Antwortvariable enthält ) enthält 1 Million Zeilen. Meine Frage ist: Gibt es potenzielle Probleme, wenn ich zu viele Zeilen (in diesem Fall 3 Millionen) in ein statistisches Modell wirf? Ich verstehe, dass der Rechenaufwand eines der Probleme ist. Gibt es andere Probleme? Gibt es Bücher / Papiere, die das Problem der Datensatzgröße vollständig erklären?
quelle
Antworten:
Es gibt zwei Arten von Problemen, auf die Sie stoßen könnten:
1) Computerprobleme, weil der Datensatz zu groß ist. Heutzutage sind ein paar Millionen Zeilen mit 6 Spalten einfach nicht so groß. Aber abhängig von Ihrem Programm, Ihrem Computer, Ihrer RAM-Größe und wahrscheinlich anderen Dingen kann es zu einem Stillstand kommen.
2) Statistische Probleme. Hier hat ein Problem, das Sie diskutieren, ein "Problem", von dem ich weiß: Selbst winzige Effekte sind von großer Bedeutung. Dies ist kein wirkliches Problem mit der Regression, sondern ein Problem mit p-Werten. Betrachten Sie besser die Effektgrößen (Regressionsparameter).
3) Eine andere Art von Problem mit Ihrem Modell ist nicht auf die Anzahl der Zeilen zurückzuführen, sondern auf die Art der Antwortvariablen (monatliche Ausgaben). Obwohl die OLS-Regression keine Annahmen über die Verteilung der Antwort (nur über den Fehler) macht, weisen Modelle mit Geld als abhängiger Variable häufig nicht normale Fehler auf. Darüber hinaus ist es häufig inhaltlich sinnvoll, das Protokoll der Antwort zu führen. Ob dies in Ihrem Fall der Fall ist, hängt davon ab, was Sie genau versuchen.
quelle
Wichtig ist die Anzahl der Personen (Zeilen) im Vergleich zur Anzahl der Koeffizienten, die Sie für das Modell schätzen müssen, das Sie anpassen möchten. Typische Faustregeln schlagen mindestens 20 Beobachtungen pro Koeffizient vor, sodass Sie in der Lage sein sollten, bis zu 150.000 Koeffizienten zu schätzen - sicherlich mehr als ausreichend für Ihre vier Prädiktoren.
Tatsächlich haben Sie in diesem Fall die Möglichkeit, kein Problem: ein ziemlich komplexes Modell anzupassen, das nichtlineare Beziehungen der Reaktion auf Prädiktoren und Interaktionen zwischen Prädiktoren enthält; Dies kann die Antwort viel besser vorhersagen als eine einfachere, bei der angenommen wird, dass die Beziehungen der Antwort zu Prädiktoren linear und additiv sind.
quelle