Ich habe kürzlich eine Überarbeitung für mein Forschungspapier erhalten. Das Folgende ist der Kommentar des Rezensenten zu meinem Papier:
Die Ergebnisse eines Modells sind nicht ganz überzeugend, insbesondere die lineare Regression weist normalerweise Mängel im Umgang mit Ausreißern auf. Ich schlage vor, dass die Autoren auch eine logistische Regression versuchen und die entsprechenden Ergebnisse mit den aktuellen Ergebnissen vergleichen. Wenn die ähnlichen Beobachtungen erhalten werden, wären die Ergebnisse solider.
Ist der Kommentar des Rezensenten richtig? Ist die logistische Regression besser als die multiple lineare Regression?
Das Problem ist, dass meine abhängige Variable nicht kategorisch ist, sondern eine Skalierungsvariable. Was kann ich jetzt machen? Welche andere Regressionsmethode empfehlen Sie, um mein Modell zu bewerten?
Die Punktzahl ist eine abhängige Variable in der folgenden Tabelle. Aktualität, Häufigkeit, Amtszeit und letzte Punktzahl sind unabhängige Variablen.
Ich habe diese Variablen von einer Site extrahiert und ich gehe davon aus, dass diese unabhängigen Variablen einen signifikanten Einfluss auf die Punktzahl haben . Daher vertrete ich folgende Modelle:
Der Wert von R im Quadrat für dieses lineare Modell beträgt übrigens 0,316! Der Rezensent hat auch diesen Wert kommentiert:
dann sind die Ergebnisse nicht überzeugend, da es keinen Indikator für die Qualität der gelernten Koeffizienten gibt. Ein kleines R ^ 2 kann keine gute Leistung anzeigen, da das Modell möglicherweise überpasst ist.
Ist 0,316 für R im Quadrat sehr niedrig? In früheren Arbeiten habe ich ähnliche Werte oft gesehen.
Antworten:
Das ordinale logistische Regressionsmodell mit proportionalen Gewinnchancen sollte für dieses Problem gut funktionieren. Eine effiziente Implementierung, die Tausende eindeutiger Werte zulässt, finden Sie in der Funktion im R- Paket.Y.
orm
rms
quelle
Sie können auch geordnete Probit / Logit-Modelle ausprobieren, indem Sie den Werten im 1., ....., 4. Perzentil die Werte 1, 2,3 und 4 zuweisen.
quelle
Sie können die Punktzahl dichotomisieren (in eine binäre Variable konvertieren). Wenn die Punktzahl zwischen 0 und 100 liegt, können Sie jeder Punktzahl unter 50 und andernfalls 0 zuweisen. Ich habe noch nie zuvor gehört, dass dies eine gute Möglichkeit ist, mit Ausreißern umzugehen. Dies kann nur Ausreißer verbergen, da es unmöglich ist, sehr hohe oder niedrige Werte zu unterscheiden. Das macht für mich nicht viel Sinn, aber Sie können es versuchen.
Ich werde nicht so tun, als wüsste ich viel über Statistik, aber aufgrund seiner Kommentare scheint es mir, dass dieser Rezensent noch weniger weiß.
quelle
Es ist möglich, die logistische Regression auch auf eine zusammenhängende abhängige Variable anzuwenden. Es ist sinnvoll, wenn Sie sicherstellen möchten, dass die Vorhersage
score
immer innerhalb liegt[0, 100]
(ich beurteile anhand Ihrer Screenshots, dass sie auf einer 100-Punkte-Skala liegt).Um dies zu erreichen, teilen Sie einfach Ihre Punktzahl durch 100 und führen Sie eine logistische Regression mit dieser
[0,1]
basierten Zielvariablen durch, wie in dieser Frage. Sie können dies beispielsweise mitR
verwendenquelle