Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?

8

Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken):

id, age, income, gender, job category, monthly spend

in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, und der vorherzusagende Datensatz (der id, age, income, gender, job categorykeine Antwortvariable enthält ) enthält 1 Million Zeilen. Meine Frage ist: Gibt es potenzielle Probleme, wenn ich zu viele Zeilen (in diesem Fall 3 Millionen) in ein statistisches Modell wirf? Ich verstehe, dass der Rechenaufwand eines der Probleme ist. Gibt es andere Probleme? Gibt es Bücher / Papiere, die das Problem der Datensatzgröße vollständig erklären?

user2926523
quelle
15
Zu viele Zeilen führen nicht zu einer Überanpassung. Zu viele Spalten reichen aus.
Peter Flom
5
Da diese Frage auf mehreren falschen Annahmen beruht - dass Menschen viele Fälle nur ungern für Analysen verwenden und die meisten statistischen Modelle nicht mit großen Datenmengen umgehen können -, werden wahrscheinlich irrelevante oder verwirrende Antworten akkumuliert. Bitte bearbeiten Sie Ihre Frage, um diese falschen Darstellungen zu entfernen.
whuber
Sie haben jedoch immer noch nicht berücksichtigt, was @whuber gesagt hat. Die Räumlichkeiten sind falsch. Es ist nicht wahr, dass "die meisten statistischen Modelle nicht mit großen Datenmengen umgehen können", daher erhalten Sie keine nützliche Antwort auf Ihre Frage. Es ist auch nicht wahr, dass Sie Informationen über alle Menschen in einem Land zu einem bestimmten Zeitpunkt verwenden können (ich denke, das ist es, was Sie unter "Bevölkerung" verstehen).
pkofod
2
ID ist, wenn dies eine vernünftige Analyse ist, keine einzelne kontinuierliche Variable. ID ist eine kategoriale Variable, da die Unterschiede zwischen Personen nicht der willkürlichen numerischen Zuordnung entsprechen, die sie erhalten. Das heißt, Sie haben 1 Variable für jede Person in der Analyse. Potenziell Millionen.
AdamO
Vielen Dank für den Kommentar, aber ich bin immer noch verwirrt, warum ich nicht zu einem bestimmten Zeitpunkt Informationen über alle Menschen in einem Land verwenden kann (dies ist ein erfundenes Beispiel. Nehmen wir also an, ich habe diese Informationen).
user2926523

Antworten:

12

Es gibt zwei Arten von Problemen, auf die Sie stoßen könnten:

1) Computerprobleme, weil der Datensatz zu groß ist. Heutzutage sind ein paar Millionen Zeilen mit 6 Spalten einfach nicht so groß. Aber abhängig von Ihrem Programm, Ihrem Computer, Ihrer RAM-Größe und wahrscheinlich anderen Dingen kann es zu einem Stillstand kommen.

2) Statistische Probleme. Hier hat ein Problem, das Sie diskutieren, ein "Problem", von dem ich weiß: Selbst winzige Effekte sind von großer Bedeutung. Dies ist kein wirkliches Problem mit der Regression, sondern ein Problem mit p-Werten. Betrachten Sie besser die Effektgrößen (Regressionsparameter).

3) Eine andere Art von Problem mit Ihrem Modell ist nicht auf die Anzahl der Zeilen zurückzuführen, sondern auf die Art der Antwortvariablen (monatliche Ausgaben). Obwohl die OLS-Regression keine Annahmen über die Verteilung der Antwort (nur über den Fehler) macht, weisen Modelle mit Geld als abhängiger Variable häufig nicht normale Fehler auf. Darüber hinaus ist es häufig inhaltlich sinnvoll, das Protokoll der Antwort zu führen. Ob dies in Ihrem Fall der Fall ist, hängt davon ab, was Sie genau versuchen.

Peter Flom
quelle
Hallo Peter, kannst du bitte genauer erklären, warum die Antwortvariable (dh die monatlichen Ausgaben) protokolliert werden sollte? Welchen Nutzen können wir daraus ziehen?
Shihpeng
1
1000tÖ10tÖ
2

Wichtig ist die Anzahl der Personen (Zeilen) im Vergleich zur Anzahl der Koeffizienten, die Sie für das Modell schätzen müssen, das Sie anpassen möchten. Typische Faustregeln schlagen mindestens 20 Beobachtungen pro Koeffizient vor, sodass Sie in der Lage sein sollten, bis zu 150.000 Koeffizienten zu schätzen - sicherlich mehr als ausreichend für Ihre vier Prädiktoren.

Tatsächlich haben Sie in diesem Fall die Möglichkeit, kein Problem: ein ziemlich komplexes Modell anzupassen, das nichtlineare Beziehungen der Reaktion auf Prädiktoren und Interaktionen zwischen Prädiktoren enthält; Dies kann die Antwort viel besser vorhersagen als eine einfachere, bei der angenommen wird, dass die Beziehungen der Antwort zu Prädiktoren linear und additiv sind.

Scortchi - Monica wieder einsetzen
quelle