Angepasster Wert gegen Wahrscheinlichkeit für logistische Regression

7

Abhängige Variable

Ich habe einen abhängigen Wert im Bereich von [0,1]. Bedeutung 0 und 1, und alle Werte dazwischen sind enthalten. Daher ist dies ein proportionaler Wert, wie zum Beispiel der Prozentsatz des Landes, das ein Landwirt düngt.

Modell

Das Modell, auf das ich mich derzeit konzentriere, ist ein logistisches Modell.

  • Als Ausgabe möchte ich jedoch sehen, wie meine abhängige Variable vom Modell vorhergesagt wird (um die realen Werte mit den geschätzten Werten zu vergleichen).

Eine logistische Regression gibt jedoch normalerweise als Ausgabe "die Wahrscheinlichkeit" an. Infolgedessen bin ich jetzt ein bisschen verwirrt.

Mein Modell =

out <- glm(cbind(fertilized, total_land-fertilized) ~ X-variables,
       family=binomial(cloglog), data=Alldata)

Um den geschätzten Prozentsatz an gedüngtem Land vorherzusagen, benutze ich

Alldata$estimated_fertilized<-predict(out,data=newdata,type="response"))

Ist das richtig? Oder gibt mir diese Zeile die Wahrscheinlichkeit anstelle des vorhergesagten Prozentsatzes? Wenn nicht richtig, was soll ich tun, um das zu bekommen, was ich will?

AKTUALISIEREN

Angesichts der Tatsache, dass Fragen zur Richtigkeit des ausgewählten Modells bestehen, gebe ich einige zusätzliche Informationen:

Verteilung der abhängigen Variablen (dies ist ein Anteil für 0-1, 0 und 1 eingeschlossen).

Historgrammabhängige Variable

user33125
quelle
3
Sie modellieren nicht wirklich eine Wahrscheinlichkeit, daher ist ein alternatives Modell wie die Beta-Regression eine Überlegung wert.
Mdewey
2
Möglicherweise interessieren Sie sich auch für diese Fragen und Antworten unter stats.stackexchange.com/questions/239422/…, in denen zwischen gezählten und kontinuierlichen Anteilen unterschieden wird.
Mdewey
2
Haben Sie den Zähler und Nenner des Anteils?
kjetil b halvorsen
3
Ich denke, ich folge all Ihren Überlegungen und auf dieser Grundlage würde ich sagen, dass die logistische Regression in Ihrem Fall überhaupt nicht gilt. Wahrscheinlichkeit ist nicht zu modellieren. Sie möchten ein granulares Ergebnis modellieren, kein Ja / Nein und nicht die Wahrscheinlichkeit von Ja oder Nein. Welche Art von Regression am besten ist, würde ich sagen, OLS, Beta und Zensur sind Kandidaten, und Sie erhalten die besten Antworten zu dieser Auswahl, wenn Sie ein Bild der Verteilung Ihrer abhängigen Variablen veröffentlichen.
Rolando2
3
Daher verwenden die meisten Landwirte keinen Dünger, einige verwenden ihn überall und einige haben Zwischenpraktiken. Es sieht so aus, als müssten Sie dies möglicherweise in zwei Schritten modellieren: erstens Modellverwendung versus Nichtverwendung mit logistischer Regression, zweitens, abhängig von der Verwendung eines Düngemittelmodells die Menge.
Mdewey

Antworten:

1

Es ist in der Tat in Ordnung, die logistische Regression zu verwenden, um beobachtete Anteile im Bereich von [0-1] einschließlich zusammenzufassen.

In der Vergangenheit wurden solche Ansätze diskreditiert, wenn die Daten tatsächlich hierarchisch waren und das Ziel der Analyse darin bestand, Expositionen auf Einzelebene zusammenzufassen, die bis zu einer Clusterebene aggregiert wurden. In diesem speziellen Fall ist es aufgrund des ökologischen Irrtums und der Nichtkollabierbarkeit des Odds Ratio als Maß für die Assoziation falsch, eine logistische Regression anzuwenden.

Die logistischen Regressionsschätzungsgleichungen eignen sich für jede Analyse, bei der das lineare Modell für das Protokoll des Mittelwerts minus dem Protokoll von eins minus dem Mittelwert geeignet ist (der Logit-Link) und wenn die Varianz des Anteils gleich den Proportionszeiten ist eins minus Anteil (Binomialvarianzannahme). Es stellt sich heraus, dass Letzteres eine ziemlich strenge Anforderung ist. Daher verwenden Analysten normalerweise einen flexibleren Varianzschätzer wie eine Quasibinom-Wahrscheinlichkeitsgleichung oder verallgemeinerte Schätzungsgleichungen.

Ein Problem mit der logistischen Regression (und ihren Varianten) besteht darin, dass nicht klar ist, wie Sie das Modell validieren werden. Wenn Sie die Vorhersagegenauigkeit mit dem mittleren quadratischen Fehler zusammenfassen - ein aus vielen Gründen gültiger Ansatz -, sollte stattdessen ein nichtlinearer NLS-Schätzer (Least Squares) für die Logit-Kurve verwendet werden. NLS findet die optimale (n) S-förmige Kurve (n), die die Assoziation (en) mit Modellprädiktoren zusammenfasst, indem die Summe der quadratischen Differenzen von der vorhergesagten Antwortfläche minimiert wird. Wenn alternativ ein Schwellenwert angewendet werden soll, der auf einer linearen Kombination von Kovariaten basiert, um Teilmengen von Feldern zu klassifizieren, die über- oder unterdüngt waren, liefert die lineare Diskriminanzanalyse überlegene Klassifizierungen. Ein logistisches Modell kann gemäß einer großen Anzahl von Vorhersagemetriken suboptimal sein.

Letztendlich sollte also nicht die Struktur der Daten die Analyse bestimmen, sondern die Frage, die der Analyst zu bewerten versucht.

AdamO
quelle