Ich versuche, einen Balance Score vorherzusagen und habe verschiedene Regressionsmethoden ausprobiert. Eine Sache, die mir aufgefallen ist, ist, dass die vorhergesagten Werte eine Art Obergrenze zu haben scheinen. Das heißt, der tatsächliche Saldo liegt bei , aber meine Vorhersagen liegen bei etwa . Das folgende Diagramm zeigt das tatsächliche gegenüber dem vorhergesagten Gleichgewicht (vorhergesagt mit linearer Regression):0,8
Und hier sind zwei Verteilungsdiagramme derselben Daten:
Da meine Prädiktoren sehr verzerrt sind (Benutzerdaten mit Potenzgesetzverteilung), habe ich eine Box-Cox-Transformation angewendet, die die Ergebnisse wie folgt ändert:
Obwohl es die Verteilung der Vorhersagen ändert, gibt es immer noch diese Obergrenze. Meine Fragen sind also:
- Was sind mögliche Gründe für solche Obergrenzen in Vorhersageergebnissen?
- Wie kann ich die Vorhersagen so festlegen, dass sie der Verteilung der tatsächlichen Werte entsprechen?
Bonus: Da die Verteilung nach der Box-Cox-Transformation den Verteilungen der transformierten Prädiktoren zu folgen scheint, ist es möglich, dass dies direkt verknüpft ist? Wenn ja, kann ich eine Transformation anwenden, um die Verteilung an die tatsächlichen Werte anzupassen?
Bearbeiten: Ich habe eine einfache lineare Regression mit 5 Prädiktoren verwendet.
Antworten:
Ihre dep var ist zwischen 0 und 1 begrenzt und daher ist OLS nicht vollständig geeignet. Ich schlage beispielsweise eine Beta-Regression vor, und es kann andere Methoden geben. Zweitens sagen Sie nach Ihrer Box-Cox-Transformation, dass Ihre Vorhersagen begrenzt sind, aber Ihr Diagramm zeigt dies nicht.
quelle
Während der Schwerpunkt auf der Verwendung von Regressionen liegt, die den Grenzen von 0/1 entsprechen, und dies vernünftig (und wichtig!) Ist, erscheint mir die spezifische Frage, warum Ihr LPM keine Ergebnisse von mehr als 0,8 vorhersagt, als etwas andere Frage .
In beiden Fällen gibt es ein bekanntes Muster in Ihren Residuen, nämlich, dass Ihr lineares Modell schlecht zum oberen Ende Ihrer Verteilung passt. Dies bedeutet, dass das richtige Modell etwas Nichtlineares hat.
Lösungen, die auch die 0/1-Grenze Ihrer Daten berücksichtigen: Probit, Logit und Beta-Regression. Diese Grenze ist von entscheidender Bedeutung und muss berücksichtigt werden, damit Ihre Arbeit angesichts Ihrer relativ nahe an 1 Verteilung und damit der großen Anzahl von Antworten zu diesem Thema streng ist.
Normalerweise besteht das Problem jedoch darin, dass ein LPM die 0/1-Grenze überschreitet. Dies ist hier nicht der Fall! Wenn Sie sich nicht mit der 0/1-Grenze befassen und aktiv eine Lösung suchen, die mit (x'x) ^ - 1 (x'y) angepasst werden kann, sollten Sie berücksichtigen, dass das Modell möglicherweise nicht streng linear ist. Das Anpassen des Modells als Funktion von x ^ 2, Kreuzprodukte unabhängiger Variablen oder Protokolle unabhängiger Variablen können dazu beitragen, Ihre Anpassung zu verbessern und möglicherweise die Erklärungskraft Ihres Modells zu verbessern, sodass Werte über 0,8 geschätzt werden.
quelle