Was tun, wenn eine lineare Regression negative Schätzungen liefert, die nicht möglich sind?

8

Ich verwende lineare Regression, um Werte zu schätzen, die in Wirklichkeit immer nicht negativ sind. Die Prädiktorvariablen sind ebenfalls nicht negativ. Zum Beispiel die Anzahl der Bildungsjahre und das Alter zurückführen, um das Gehalt vorherzusagen. Alle Variablen sind in diesem Fall immer nicht negativ.

Aufgrund des negativen Abschnitts führt mein Modell (bestimmt mit OLS) zu einigen negativen Vorhersagen (wenn der Wert der Prädiktorvariablen in Bezug auf den Bereich aller Werte niedrig ist).

Dieses Thema wurde bereits abgedeckt hier , und ich bin mir auch bewusst , dass der Schnittpunkt bei 0 zwingen wird abgeraten , so scheint es , dass ich dieses Modell als das akzeptieren habe ich zu verwenden. Meine Frage hier betrifft jedoch die akzeptierten Normen und Regeln bei der Bewertung eines solchen Modells. Gibt es hier bestimmte Regeln? Speziell:

  • Wenn ich eine negative Schätzung bekomme, kann ich sie dann einfach auf 0 runden?
  • Wenn der beobachtete Wert 100 ist und der vorhergesagte Wert -300 ist und ich weiß, dass der minimal mögliche Wert 0 ist, ist der Fehler 400 oder 100? Zum Beispiel bei der Berechnung von ME und RMSE.

Wenn es für die Diskussion relevant ist: Ich habe sowohl einfache lineare Regression als auch multiple lineare Regression verwendet. Beide führen zu mehreren negativen Werten.


Bearbeiten:

Hier ist das Beispiel der Beispiele mit der Passform:

Lineare Anpassung

Die Koeffizienten der linearen Regression betragen 0,0010 (x) und -540 (Achsenabschnitt).

Folgendes passiert, wenn ich das Protokoll für das X verwende:

Log

Ist hier eine lineare Regression geeignet?

Mo.
quelle
3
Ihr Modell ist falsch angegeben. Sie brauchen eine andere Art von Modell. Wenn Ihre Daten nicht unter 0 fallen können und Ihr Modell dies nicht kann, spiegelt Ihr Modell nicht die Realität Ihrer Daten wider. Der Unterschied ist vielleicht nicht groß genug, um sich in einem bestimmten Kontext Sorgen zu machen, aber es scheint, dass dies hier nicht der Fall ist.
Gung - Reinstate Monica
@gung, ich habe die Frage mit Plots aktualisiert.
Montag,
1
@gung, ich möchte vermeiden, zu sehr ins Detail zu gehen, da ich es nicht relevant finde. Nehmen wir also an, dass sowohl X als auch Y Variablen wie Einkommen, Alter, Niederschlag usw. sind, die nicht negativ sein können.
Montag,
2
Die Details sind definitiv relevant für die Art der Daten X & Y und für die Art der Beziehungen zwischen ihnen. Es gibt eine sehr reale Grenze für das, was wir Ihnen ohne weitere Informationen empfehlen können.
Gung - Reinstate Monica
1
Wenn Sie etwas transformieren wollen, sollte es Y und nicht X sein. Außerdem wird das Transformieren von X Ihr Problem in keinem Fall direkt angehen. Aber schauen
Nick Cox

Antworten:

5

Sie haben keinen Kontext angegeben, aber Sie haben einen Link zu einem Beitrag erstellt, der eine Lösung bietet. Ich gehe davon aus, dass diese Lösung hier nicht anwendbar ist.

Dann besteht eine andere Lösung darin, keine lineare Regression (einfach oder mehrfach) zu verwenden, da sie das Problem, das Sie haben, nicht löst.

Lassen Sie uns jedoch zunächst Ihr Einkommen als Funktion des Alters und der Bildung verwenden. Hier sind negative Vorhersagewerte sinnvoll, da Sie wahrscheinlich nicht am Einkommen von Neugeborenen interessiert sind. Dort ist es jedoch auch sinnvoll, ein Protokoll (Einkommen) zu erstellen, es sei denn, einige Personen in Ihrem Datensatz haben kein Einkommen.

Aber nehmen wir an, das ist es nicht. Dann können Sie eine Regressionsmethode verwenden, die die Grenzen der abhängigen Variablen berücksichtigt. Eine davon ist die Beta-Regression, für die ein DV zwischen 0 und 1 erforderlich ist. Sie können Ihren DV also auf 0 bis 1 skalieren und dann die Beta-Regression verwenden.

Aber ich möchte Sie dringend bitten, der Frage Ihre tatsächlichen Variablen hinzuzufügen.

Peter Flom
quelle
Danke für deine Antwort. Ich habe die Frage mit Plots aktualisiert, die nützlich sein könnten.
Montag,
Sie haben keinen Kontext angegeben, Sie haben nicht gesagt, was X und Y sind, Sie haben nicht gesagt, warum Y nicht unter 0 fallen kann, und daher gibt es für niemanden eine Möglichkeit, Ihnen zu helfen. Die Lösungen, die Sie in Ihrer Frage vorschlagen, sind jedoch alle schlecht.
Peter Flom