Regressionsergebnisse haben eine unerwartete Obergrenze

9

Ich versuche, einen Balance Score vorherzusagen und habe verschiedene Regressionsmethoden ausprobiert. Eine Sache, die mir aufgefallen ist, ist, dass die vorhergesagten Werte eine Art Obergrenze zu haben scheinen. Das heißt, der tatsächliche Saldo liegt bei , aber meine Vorhersagen liegen bei etwa . Das folgende Diagramm zeigt das tatsächliche gegenüber dem vorhergesagten Gleichgewicht (vorhergesagt mit linearer Regression):0,8[0.0,1.0)0.8

Ist vs vorhergesagt

Und hier sind zwei Verteilungsdiagramme derselben Daten:

Erstverteilung

Da meine Prädiktoren sehr verzerrt sind (Benutzerdaten mit Potenzgesetzverteilung), habe ich eine Box-Cox-Transformation angewendet, die die Ergebnisse wie folgt ändert:

Ist vs vorhergesagt nach Box-Cox-Transformation

Verteilung nach Box-Cox-Transformation

Obwohl es die Verteilung der Vorhersagen ändert, gibt es immer noch diese Obergrenze. Meine Fragen sind also:

  • Was sind mögliche Gründe für solche Obergrenzen in Vorhersageergebnissen?
  • Wie kann ich die Vorhersagen so festlegen, dass sie der Verteilung der tatsächlichen Werte entsprechen?

Bonus: Da die Verteilung nach der Box-Cox-Transformation den Verteilungen der transformierten Prädiktoren zu folgen scheint, ist es möglich, dass dies direkt verknüpft ist? Wenn ja, kann ich eine Transformation anwenden, um die Verteilung an die tatsächlichen Werte anzupassen?

Bearbeiten: Ich habe eine einfache lineare Regression mit 5 Prädiktoren verwendet.

Mennny
quelle
1
Ich bin wirklich interessiert zu sehen, wohin das führt. Dies ist nur ein lineares Regressionsmodell? Wie viele Prädiktoren?
Shadowtalker
1
Als Randnotiz: Da Ihre Ergebnisvariable durch 0 und 1 begrenzt ist, wird ein einfaches lineares Regressionsmodell wahrscheinlich Werte außerhalb dieser Grenzen vorhersagen, was natürlich ungültig ist. In diesem Fall sind andere Optionen zu berücksichtigen.
COOLSerdash
1
Eingeschränkte Eingabe impliziert eine begrenzte Ausgabe für ein lineares Modell. Was sind die Grenzen der (transformierten) Prädiktoren? Können Sie uns eine Übersichtstabelle der Modellanpassung zeigen?
Kardinal
2
Mennny: Alles, was Sie wirklich brauchen (zu Beginn), sind die Koeffizientenwerte und die Grenzen der Prädiktoren. Indem Sie die Zeichen einzeln nacheinander abgleichen, können Sie schnell die minimale und maximale Vorhersage bestimmen (vorausgesetzt, die Prädiktoren erfüllen immer die Grenzen, entweder implizit oder explizit).
Kardinal
1
@cardinal: Ich habe die Grenzen der Prädiktoren überprüft und konnte Ihre Annahme bestätigen. Mit den gegebenen (nicht transformierten) Prädiktoren beträgt die maximale Vorhersage ~ 0,79. Können Sie bitte Ihren Kommentar als Antwort "kopieren / einfügen", damit ich ihn akzeptieren kann? Wie kann ich vorgehen? Ich denke, dies zeigt, dass es keine lineare Beziehung zwischen meinen Prädiktoren und dem Ergebnis gibt.
Mennny

Antworten:

1

Ihre dep var ist zwischen 0 und 1 begrenzt und daher ist OLS nicht vollständig geeignet. Ich schlage beispielsweise eine Beta-Regression vor, und es kann andere Methoden geben. Zweitens sagen Sie nach Ihrer Box-Cox-Transformation, dass Ihre Vorhersagen begrenzt sind, aber Ihr Diagramm zeigt dies nicht.

Leonardo Auslender
quelle
0

Während der Schwerpunkt auf der Verwendung von Regressionen liegt, die den Grenzen von 0/1 entsprechen, und dies vernünftig (und wichtig!) Ist, erscheint mir die spezifische Frage, warum Ihr LPM keine Ergebnisse von mehr als 0,8 vorhersagt, als etwas andere Frage .

In beiden Fällen gibt es ein bekanntes Muster in Ihren Residuen, nämlich, dass Ihr lineares Modell schlecht zum oberen Ende Ihrer Verteilung passt. Dies bedeutet, dass das richtige Modell etwas Nichtlineares hat.

Lösungen, die auch die 0/1-Grenze Ihrer Daten berücksichtigen: Probit, Logit und Beta-Regression. Diese Grenze ist von entscheidender Bedeutung und muss berücksichtigt werden, damit Ihre Arbeit angesichts Ihrer relativ nahe an 1 Verteilung und damit der großen Anzahl von Antworten zu diesem Thema streng ist.

Normalerweise besteht das Problem jedoch darin, dass ein LPM die 0/1-Grenze überschreitet. Dies ist hier nicht der Fall! Wenn Sie sich nicht mit der 0/1-Grenze befassen und aktiv eine Lösung suchen, die mit (x'x) ^ - 1 (x'y) angepasst werden kann, sollten Sie berücksichtigen, dass das Modell möglicherweise nicht streng linear ist. Das Anpassen des Modells als Funktion von x ^ 2, Kreuzprodukte unabhängiger Variablen oder Protokolle unabhängiger Variablen können dazu beitragen, Ihre Anpassung zu verbessern und möglicherweise die Erklärungskraft Ihres Modells zu verbessern, sodass Werte über 0,8 geschätzt werden.

RegressForward
quelle