Ich verwende lineare Regression, um Werte zu schätzen, die in Wirklichkeit immer nicht negativ sind. Die Prädiktorvariablen sind ebenfalls nicht negativ. Zum Beispiel die Anzahl der Bildungsjahre und das Alter zurückführen, um das Gehalt vorherzusagen. Alle Variablen sind in diesem Fall immer nicht negativ.
Aufgrund des negativen Abschnitts führt mein Modell (bestimmt mit OLS) zu einigen negativen Vorhersagen (wenn der Wert der Prädiktorvariablen in Bezug auf den Bereich aller Werte niedrig ist).
Dieses Thema wurde bereits abgedeckt hier , und ich bin mir auch bewusst , dass der Schnittpunkt bei 0 zwingen wird abgeraten , so scheint es , dass ich dieses Modell als das akzeptieren habe ich zu verwenden. Meine Frage hier betrifft jedoch die akzeptierten Normen und Regeln bei der Bewertung eines solchen Modells. Gibt es hier bestimmte Regeln? Speziell:
- Wenn ich eine negative Schätzung bekomme, kann ich sie dann einfach auf 0 runden?
- Wenn der beobachtete Wert 100 ist und der vorhergesagte Wert -300 ist und ich weiß, dass der minimal mögliche Wert 0 ist, ist der Fehler 400 oder 100? Zum Beispiel bei der Berechnung von ME und RMSE.
Wenn es für die Diskussion relevant ist: Ich habe sowohl einfache lineare Regression als auch multiple lineare Regression verwendet. Beide führen zu mehreren negativen Werten.
Bearbeiten:
Hier ist das Beispiel der Beispiele mit der Passform:
Die Koeffizienten der linearen Regression betragen 0,0010 (x) und -540 (Achsenabschnitt).
Folgendes passiert, wenn ich das Protokoll für das X verwende:
Ist hier eine lineare Regression geeignet?
Antworten:
Sie haben keinen Kontext angegeben, aber Sie haben einen Link zu einem Beitrag erstellt, der eine Lösung bietet. Ich gehe davon aus, dass diese Lösung hier nicht anwendbar ist.
Dann besteht eine andere Lösung darin, keine lineare Regression (einfach oder mehrfach) zu verwenden, da sie das Problem, das Sie haben, nicht löst.
Lassen Sie uns jedoch zunächst Ihr Einkommen als Funktion des Alters und der Bildung verwenden. Hier sind negative Vorhersagewerte sinnvoll, da Sie wahrscheinlich nicht am Einkommen von Neugeborenen interessiert sind. Dort ist es jedoch auch sinnvoll, ein Protokoll (Einkommen) zu erstellen, es sei denn, einige Personen in Ihrem Datensatz haben kein Einkommen.
Aber nehmen wir an, das ist es nicht. Dann können Sie eine Regressionsmethode verwenden, die die Grenzen der abhängigen Variablen berücksichtigt. Eine davon ist die Beta-Regression, für die ein DV zwischen 0 und 1 erforderlich ist. Sie können Ihren DV also auf 0 bis 1 skalieren und dann die Beta-Regression verwenden.
Aber ich möchte Sie dringend bitten, der Frage Ihre tatsächlichen Variablen hinzuzufügen.
quelle