Verwenden der logistischen Regression für eine kontinuierliche abhängige Variable

9

Ich habe kürzlich eine Überarbeitung für mein Forschungspapier erhalten. Das Folgende ist der Kommentar des Rezensenten zu meinem Papier:

Die Ergebnisse eines Modells sind nicht ganz überzeugend, insbesondere die lineare Regression weist normalerweise Mängel im Umgang mit Ausreißern auf. Ich schlage vor, dass die Autoren auch eine logistische Regression versuchen und die entsprechenden Ergebnisse mit den aktuellen Ergebnissen vergleichen. Wenn die ähnlichen Beobachtungen erhalten werden, wären die Ergebnisse solider.

Ist der Kommentar des Rezensenten richtig? Ist die logistische Regression besser als die multiple lineare Regression?

Das Problem ist, dass meine abhängige Variable nicht kategorisch ist, sondern eine Skalierungsvariable. Was kann ich jetzt machen? Welche andere Regressionsmethode empfehlen Sie, um mein Modell zu bewerten?

Die Punktzahl ist eine abhängige Variable in der folgenden Tabelle. Aktualität, Häufigkeit, Amtszeit und letzte Punktzahl sind unabhängige Variablen.

Geben Sie hier die Bildbeschreibung ein

Ich habe diese Variablen von einer Site extrahiert und ich gehe davon aus, dass diese unabhängigen Variablen einen signifikanten Einfluss auf die Punktzahl haben . Daher vertrete ich folgende Modelle:

Geben Sie hier die Bildbeschreibung ein


Der Wert von R im Quadrat für dieses lineare Modell beträgt übrigens 0,316! Der Rezensent hat auch diesen Wert kommentiert:

dann sind die Ergebnisse nicht überzeugend, da es keinen Indikator für die Qualität der gelernten Koeffizienten gibt. Ein kleines R ^ 2 kann keine gute Leistung anzeigen, da das Modell möglicherweise überpasst ist.

Ist 0,316 für R im Quadrat sehr niedrig? In früheren Arbeiten habe ich ähnliche Werte oft gesehen.

Geben Sie hier die Bildbeschreibung ein

PSS
quelle
Dies ist ein kleiner Punkt, aber das Verstehen, wie die Punktzahl berechnet wird, kann hilfreich sein, um gute Antworten zu geben. Könnten Sie Ihre Frage bearbeiten, um uns darüber zu informieren?
whuber
Ich bearbeite meinen Beitrag. Meine statistischen Kenntnisse sind nicht gut. Ich wäre Ihnen sehr dankbar, wenn Sie mir helfen würden.
PSS
1
Gibt es keine Idee, eine logistische Regression für eine kontinuierliche abhängige Variable durchzuführen?
PSS
1
Muss die Punktzahl zwischen 0 und 100 liegen? In diesem Fall könnten Sie durch 100 teilen und eine logistische Regression für die resultierende Variable durchführen, die immer zwischen 0 und 1 liegt. Es fühlt sich etwas seltsam an, Dinge auf diese Weise zu tun, und ich bin mir nicht sicher, wie sinnvoll es ist, aber Vielleicht schlägt der Rezensent das vor?
Sam Livingstone
2
Nein, eine Skalierung auf 0-1 oder das Verwerfen wertvoller Informationen und die Kategorisierung der Punktzahl sind überhaupt keine guten Lösungen.
Frank Harrell

Antworten:

7

Das ordinale logistische Regressionsmodell mit proportionalen Gewinnchancen sollte für dieses Problem gut funktionieren. Eine effiziente Implementierung, die Tausende eindeutiger Werte zulässt, finden Sie in der Funktion im R- Paket.Yormrms

Frank Harrell
quelle
Ich habe R und alle notwendigen Pakete installiert. Würden Sie bitte ein Beispiel für die Orm-Funktion geben? Ich habe nicht durch Suchen gefunden. Wie sollte der Code für mein Regressionsmodell sein?
PSS
1
Y
1

Sie können auch geordnete Probit / Logit-Modelle ausprobieren, indem Sie den Werten im 1., ....., 4. Perzentil die Werte 1, 2,3 und 4 zuweisen.

user36853
quelle
Welche Variable schlagen Sie vor, um sie auf die niedrigsten vier Perzentile (von 100) zu reduzieren? Was würde dies bewirken und warum?
whuber
-1

Sie können die Punktzahl dichotomisieren (in eine binäre Variable konvertieren). Wenn die Punktzahl zwischen 0 und 100 liegt, können Sie jeder Punktzahl unter 50 und andernfalls 0 zuweisen. Ich habe noch nie zuvor gehört, dass dies eine gute Möglichkeit ist, mit Ausreißern umzugehen. Dies kann nur Ausreißer verbergen, da es unmöglich ist, sehr hohe oder niedrige Werte zu unterscheiden. Das macht für mich nicht viel Sinn, aber Sie können es versuchen.

βR2

R2R2

Ich werde nicht so tun, als wüsste ich viel über Statistik, aber aufgrund seiner Kommentare scheint es mir, dass dieser Rezensent noch weniger weiß.

Pontikos
quelle
Vielen Dank für Ihre Antwort. Da alle Variablen verzerrt sind, habe ich sie natürlich logarithmisch transformiert. Habe ich recht? Vielen Dank für die Klarstellung, was "Überanpassung" bedeutet! Eigentlich wusste ich nicht, was Überanpassung bedeutet. Jetzt kann ich dem Rezensenten und Redakteur antworten. Was empfehlen Sie mir übrigens, um meine Bewertung solider zu gestalten? Welche Regressionsmethode ist Ihrer Meinung nach besser?
PSS
6
Y
Ich stimme @FrankHarrell zu, dass die Auswahl eines beliebigen Schwellenwerts zur Dichotomisierung Ihrer Daten keinen Sinn ergibt. Ist das Ihr gesamter Datensatz? Wenn Sie so wenige Beobachtungen haben, werden Ihre Daten niemals normal verteilt aussehen! Außerdem müssen Sie die Art der Daten verstehen, mit denen Sie zu tun haben. Welchen Wertebereich können sie annehmen? Ist es sinnvoll anzunehmen, dass sie normal verteilt sein sollten? Ich werde mich mit Franks Vorschlag befassen, eine ordinale logistische Regression zu verwenden, aber ich vermute, dass die Reihenfolge der Bewertungen anstelle ihres Werts in der Regression verwendet wird.
Pontikos
@PotentialScientist, es spielt keine Rolle, ob Ihre Distributionen verzerrt sind. Bei der (typischen) OLS-Regression ist nur die Verteilung der Residuen von Bedeutung, siehe hier: Was-wäre-wenn-Residuen normal verteilt sind, aber y-nicht . Vielleicht möchten Sie auch Folgendes lesen: Interpretation des logarithmisch transformierten Prädiktors , um zu verstehen, was mit Ihrem Modell infolge der Transformation Ihrer Prädiktoren passiert ist.
Gung - Reinstate Monica
@PotentialScientist wie geht es dir? Wenn Sie Ihre Frage bearbeiten, um die Daten im CSV-Format bereitzustellen, kann ich versuchen, die von Prof. Harrell vorgeschlagene orm-Funktion auszuführen, und wir können die Ausgabe analysieren. Es lohnt sich, die Grundlagen von R zu lernen (wie man eine Datei einliest und eine Regression ausführt).
Pontikos
-1

Es ist möglich, die logistische Regression auch auf eine zusammenhängende abhängige Variable anzuwenden. Es ist sinnvoll, wenn Sie sicherstellen möchten, dass die Vorhersage scoreimmer innerhalb liegt [0, 100](ich beurteile anhand Ihrer Screenshots, dass sie auf einer 100-Punkte-Skala liegt).

Um dies zu erreichen, teilen Sie einfach Ihre Punktzahl durch 100 und führen Sie eine logistische Regression mit dieser [0,1]basierten Zielvariablen durch, wie in dieser Frage. Sie können dies beispielsweise mit Rverwenden

glm(y~x, family="binomial", data=your.dataframe)

R2

R20.3R2R2

David Dale
quelle