Negative Werte in Vorhersagen für eine immer positive Antwortvariable in der linearen Regression

8

Ich versuche, eine Antwortvariable in der linearen Regression vorherzusagen, die immer positiv sein sollte (Kosten pro Klick). Es ist ein Geldbetrag. Bei AdWords zahlen Sie Google für Klicks auf Ihre Anzeigen. Eine negative Zahl bedeutet, dass Google Sie bezahlt, wenn Nutzer auf Folgendes klicken: P.

Die Prädiktoren sind alle kontinuierliche Werte. Rsquared und RMSE sind im Vergleich zu anderen Modellen anständig, auch außerhalb der Stichprobe:

  RMSE        Rsquared 
1.4141477     0.8207303

Ich kann die Vorhersagen nicht neu skalieren, da es sich um Geld handelt, sodass selbst ein kleiner Neuskalierungsfaktor die Kosten erheblich verändern kann.

Soweit ich weiß, gibt es für das Regressionsmodell nichts Besonderes an Null und negativen Zahlen, sodass die beste Regressionshyperebene gefunden wird, unabhängig davon, ob die Ausgabe teilweise negativ ist.

Dies ist ein allererster Versuch, bei dem alle Variablen verwendet werden, die ich habe. Es gibt also Raum für Verfeinerung.

Gibt es eine Möglichkeit, dem Modell mitzuteilen, dass die Ausgabe nicht negativ sein kann?

Usillos
quelle
6
Sie können positive Vorhersagen sicherstellen, indem Sie ein verallgemeinertes lineares Modell mit logarithmischer Verknüpfungsfunktion verwenden. Übrigens, obwohl Ihr -Wert recht ermutigend ist, ist eine bessere Überprüfung, ob das Modell der Hauptform der Daten folgt, eine grafische Darstellung des Residuums gegenüber dem vorhergesagten. Diagramme von beobachteten und vorhergesagten können ebenfalls dazu beitragen, Ihr Problem zu beleuchten. R2
Nick Cox
1
@ NickCox gab einen Vorschlag. Ich würde die Daten auf mehr Arten als nur Residuen vs. Vorhersagen darstellen. Sie können jedoch sicherlich Geldvariablen neu skalieren. Eine übliche Methode besteht darin, log (Kosten) als abhängige Variable zu verwenden. (Ich denke, dies entspricht der Protokollverknüpfungsfunktion, ist aber möglicherweise leichter zu verstehen.) Log (Kosten) können natürlich negativ sein. Und Protokolle von Geldvariablen sind oft sinnvoll, weil beispielsweise ein Unterschied zwischen 0,01 und 0,02 pro Klick wichtig ist, ein Unterschied zwischen 1,01 und 10,2 pro Klick jedoch nicht.
Peter Flom
@ Peter Flom Ich denke, meinte 1.02 nicht 10.2.
Nick Cox
1
Ein paar Beispieldaten würden den Menschen helfen, mögliche Lösungen zu veranschaulichen.
Glen_b -State Monica

Antworten:

4

Ich gehe davon aus, dass Sie den OLS-Schätzer für dieses lineare Regressionsmodell verwenden. Sie können den Schätzer für ungleichheitsbeschränkte kleinste Quadrate verwenden , der die Lösung für ein Minimierungsproblem unter Ungleichheitsbeschränkungen darstellt. Unter Verwendung der Standardmatrixnotation (Vektoren sind Spaltenvektoren) wird das Minimierungsproblem wie folgt angegeben

minβ(yXβ)(yXβ)s.t.Zβ0

... wobei ist , ist , ist und ist der Matrix , welche die out-of-Probe Regressor Reihe enthält , Länge , die zur Vorhersage verwendet werden. Wir haben lineare Ungleichungsbeschränkungen (und die Zielfunktion ist konvex, so dass die Bedingungen erster Ordnung für ein Minimum ausreichen).yn×1Xn×kβk×1Zm×kmm

Der Lagrange dieses Problems ist

L=(yXβ)(yXβ)λZβ=yyyXββXy+βXXβλZβ

=yy2βXy+βXXβλZβ

Dabei ist ein Spaltenvektor nicht negativer Karush-Kuhn-Tucker-Multiplikatoren. Die Bedingungen erster Ordnung sind (möglicherweise möchten Sie die Regeln für die Matrix- und Vektordifferenzierung überprüfen).λm×1

Lβ=02Xy+2XXβZλ

β^R=(XX)1Xy+12(XX)1Zλ=β^OLS+(XX)1Zξ[1]

... wobei und der Schätzer ist, den wir aus der gewöhnlichen Schätzung der kleinsten Quadrate erhalten würden.ξ=12λβ^OLS

Die Methode ist in Liew (1976) vollständig ausgearbeitet .

Alecos Papadopoulos
quelle
3
Ich habe dies positiv bewertet, weil es eine legitime Lösung ist, aber in der Praxis ist es riskant. Schließlich reagiert die Lösung willkürlich auf Werte von : Ein einzelner Wert mit hohem Hebel steuert die Schätzungen weit entfernt von einer anständigen Anpassung, nur um die Einschränkung durchzusetzen. Daher muss dieses Verfahren mindestens von einem sorgfältigen Anpassungstest an die Daten begleitet werden. Z
whuber
@whuber Du hast recht. Also, OP, treten Sie hier vorsichtig vor.
Alecos Papadopoulos