Erweiterung der logistischen Regression für Ergebnisse im Bereich zwischen 0 und 1

9

Ich habe ein Regressionsproblem, bei dem die Ergebnisse nicht streng 0, 1 sind, sondern im Bereich aller reellen Zahlen von 0 bis 1 enthalten sind, einschließlich .Y=[0,0.12,0.31,...,1]

Dieses Problem wurde bereits in diesem Thread diskutiert , obwohl meine Frage etwas anders ist.

Ich kann die lineare Regression aus den gleichen Gründen nicht verwenden, aus denen normalerweise die logistische Regression verwendet wird. Bei der linearen Regression verzerren A) sehr große IVs-Werte das vorhergesagte Ergebnis auf 1 und B) das Ergebnis der linearen Regression ist nicht an die 0,1-Grenzen gebunden.

Wenn ich diese logistische Kostenfunktion aus meinem Lehrbuch stelle ich fest, dass die Gleichung zur Berechnung ausgelegt ist Kosten größer als 0 nur, wenn und nicht den gleichen Wert 0 oder 1 haben.

Cost=ylog(h(x))(1y)log(1h(x))
yx

Wäre es möglich, die logistische Regression zu verwenden, indem die Kostenfunktion geändert wird, um alle Hypothesenfehler zu messen?

Robert Kubrick
quelle

Antworten:

9

Sie haben mehrere Möglichkeiten. Zwei davon könnten sein:

  1. Wenn Sie Ihr durch die logistische Transformation transformieren, können Sie versuchen, eine lineare Regression über gewöhnliche kleinste Quadrate an diese transformierte Antwortvariable anzupassen.log ( yYlog(y1y)
  2. Alternativ können Sie die ursprüngliche Variable in ein verallgemeinertes lineares Modell mit der logistischen Transformation als Verknüpfungsvariable und einer Beziehung zwischen der Varianz von und dem Mittelwert einpassen, als wäre es eine Binomialvariable, die durch iterative neu gewichtete kleinste Quadrate angepasst wird. Dies ist im Grunde dasselbe wie "logistische Regression verwenden".Y

Welche verwendet werden soll, hängt von der Fehlerstruktur ab. Die einzige Möglichkeit, zu entscheiden, besteht darin, beide anzupassen und festzustellen, welche eine Reststruktur aufweist, die den Annahmen des Modells am besten entspricht. Mein Verdacht ist, dass es nicht viel zu wählen gibt. Sicherlich wäre jede dieser Optionen aus den von Ihnen genannten Gründen eine große Verbesserung der geraden linearen Regression mit dem nicht transformiertenY

Peter Ellis
quelle
2
(+1) Option 2: Normalerweise schätzen Sie dann die Überdispersion und verwenden diese zur Berechnung von Standardfehlern - ein "quasi-binomiales" Modell, bei dem die Beziehung zwischen Ys Varianz und Mittelwert eher proportional als gleich ist wie die von eine Binomialvariable.
Scortchi - Monica wieder einsetzen
@ Scortchi: Ist dies die glm()Funktion in R, wenn es mit kontinuierlicher Antwort gespeist wird und family=quasibinomial? Dh es werden die Koeffizienten mit geschätzt family=binomialund dann in einem zusätzlichen Schritt Standardfehler unter Berücksichtigung der Überdispersion berechnet? Wenn ja, entspricht dies der Berechnung von "robusten Standardfehlern"? Ich habe einige geeignete Daten und habe beide Familien mit versucht glm; Ich bekomme identische Koeffizienten, aber unterschiedliche Standardfehler. Vielen Dank.
Amöbe
1
@amoeba: Ja das war's. "Robuste Standardfehler" bedeuten jedoch normalerweise die Verwendung eines Sandwich-Schätzers oder dergleichen.
Scortchi - Monica wieder einsetzen
8

Wenn Y begrenzt ist, ist eine Beta-Regression oft sinnvoll. siehe die Zeitung "A Better Lemon Squeezer"

Dies ermöglicht Boden- und Deckeneffekte; Es ermöglicht auch die Modellierung der Varianz sowie des Mittelwerts.

Peter Flom - Monica wieder einsetzen
quelle
0

Da y nicht streng null oder eins ist (wie Sie sagten), sollten die Kosten immer größer als null sein. Ich glaube nicht, dass Sie die Modifikation im Modell benötigen.

Metriken
quelle
0

Ich schlage zwei alternative Modelle vor:

Wenn Ihre Ergebnisse (y Variablen) geordnet sind, versuchen Sie es mit einem geordneten Probit-Modell.

Wenn Ihre Ergebnisse (y-Variablen) nicht geordnet sind, versuchen Sie es mit einem multinomialen Logit-Modell.

Leistung
quelle