Ich versuche, eine Antwortvariable in der linearen Regression vorherzusagen, die immer positiv sein sollte (Kosten pro Klick). Es ist ein Geldbetrag. Bei AdWords zahlen Sie Google für Klicks auf Ihre Anzeigen. Eine negative Zahl bedeutet, dass Google Sie bezahlt, wenn Nutzer auf Folgendes klicken: P.
Die Prädiktoren sind alle kontinuierliche Werte. Rsquared und RMSE sind im Vergleich zu anderen Modellen anständig, auch außerhalb der Stichprobe:
RMSE Rsquared
1.4141477 0.8207303
Ich kann die Vorhersagen nicht neu skalieren, da es sich um Geld handelt, sodass selbst ein kleiner Neuskalierungsfaktor die Kosten erheblich verändern kann.
Soweit ich weiß, gibt es für das Regressionsmodell nichts Besonderes an Null und negativen Zahlen, sodass die beste Regressionshyperebene gefunden wird, unabhängig davon, ob die Ausgabe teilweise negativ ist.
Dies ist ein allererster Versuch, bei dem alle Variablen verwendet werden, die ich habe. Es gibt also Raum für Verfeinerung.
Gibt es eine Möglichkeit, dem Modell mitzuteilen, dass die Ausgabe nicht negativ sein kann?
quelle
Antworten:
Ich gehe davon aus, dass Sie den OLS-Schätzer für dieses lineare Regressionsmodell verwenden. Sie können den Schätzer für ungleichheitsbeschränkte kleinste Quadrate verwenden , der die Lösung für ein Minimierungsproblem unter Ungleichheitsbeschränkungen darstellt. Unter Verwendung der Standardmatrixnotation (Vektoren sind Spaltenvektoren) wird das Minimierungsproblem wie folgt angegeben
... wobei ist , ist , ist und ist der Matrix , welche die out-of-Probe Regressor Reihe enthält , Länge , die zur Vorhersage verwendet werden. Wir haben lineare Ungleichungsbeschränkungen (und die Zielfunktion ist konvex, so dass die Bedingungen erster Ordnung für ein Minimum ausreichen).y n×1 X n×k β k×1 Z m×k m m
Der Lagrange dieses Problems ist
Dabei ist ein Spaltenvektor nicht negativer Karush-Kuhn-Tucker-Multiplikatoren. Die Bedingungen erster Ordnung sind (möglicherweise möchten Sie die Regeln für die Matrix- und Vektordifferenzierung überprüfen).λ m×1
... wobei und der Schätzer ist, den wir aus der gewöhnlichen Schätzung der kleinsten Quadrate erhalten würden.ξ=12λ β^OLS
Die Methode ist in Liew (1976) vollständig ausgearbeitet .
quelle