Abhängige Variable
Ich habe einen abhängigen Wert im Bereich von [0,1]. Bedeutung 0 und 1, und alle Werte dazwischen sind enthalten. Daher ist dies ein proportionaler Wert, wie zum Beispiel der Prozentsatz des Landes, das ein Landwirt düngt.
Modell
Das Modell, auf das ich mich derzeit konzentriere, ist ein logistisches Modell.
- Als Ausgabe möchte ich jedoch sehen, wie meine abhängige Variable vom Modell vorhergesagt wird (um die realen Werte mit den geschätzten Werten zu vergleichen).
Eine logistische Regression gibt jedoch normalerweise als Ausgabe "die Wahrscheinlichkeit" an. Infolgedessen bin ich jetzt ein bisschen verwirrt.
Mein Modell =
out <- glm(cbind(fertilized, total_land-fertilized) ~ X-variables,
family=binomial(cloglog), data=Alldata)
Um den geschätzten Prozentsatz an gedüngtem Land vorherzusagen, benutze ich
Alldata$estimated_fertilized<-predict(out,data=newdata,type="response"))
Ist das richtig? Oder gibt mir diese Zeile die Wahrscheinlichkeit anstelle des vorhergesagten Prozentsatzes? Wenn nicht richtig, was soll ich tun, um das zu bekommen, was ich will?
AKTUALISIEREN
Angesichts der Tatsache, dass Fragen zur Richtigkeit des ausgewählten Modells bestehen, gebe ich einige zusätzliche Informationen:
Verteilung der abhängigen Variablen (dies ist ein Anteil für 0-1, 0 und 1 eingeschlossen).
quelle
Antworten:
Es ist in der Tat in Ordnung, die logistische Regression zu verwenden, um beobachtete Anteile im Bereich von [0-1] einschließlich zusammenzufassen.
In der Vergangenheit wurden solche Ansätze diskreditiert, wenn die Daten tatsächlich hierarchisch waren und das Ziel der Analyse darin bestand, Expositionen auf Einzelebene zusammenzufassen, die bis zu einer Clusterebene aggregiert wurden. In diesem speziellen Fall ist es aufgrund des ökologischen Irrtums und der Nichtkollabierbarkeit des Odds Ratio als Maß für die Assoziation falsch, eine logistische Regression anzuwenden.
Die logistischen Regressionsschätzungsgleichungen eignen sich für jede Analyse, bei der das lineare Modell für das Protokoll des Mittelwerts minus dem Protokoll von eins minus dem Mittelwert geeignet ist (der Logit-Link) und wenn die Varianz des Anteils gleich den Proportionszeiten ist eins minus Anteil (Binomialvarianzannahme). Es stellt sich heraus, dass Letzteres eine ziemlich strenge Anforderung ist. Daher verwenden Analysten normalerweise einen flexibleren Varianzschätzer wie eine Quasibinom-Wahrscheinlichkeitsgleichung oder verallgemeinerte Schätzungsgleichungen.
Ein Problem mit der logistischen Regression (und ihren Varianten) besteht darin, dass nicht klar ist, wie Sie das Modell validieren werden. Wenn Sie die Vorhersagegenauigkeit mit dem mittleren quadratischen Fehler zusammenfassen - ein aus vielen Gründen gültiger Ansatz -, sollte stattdessen ein nichtlinearer NLS-Schätzer (Least Squares) für die Logit-Kurve verwendet werden. NLS findet die optimale (n) S-förmige Kurve (n), die die Assoziation (en) mit Modellprädiktoren zusammenfasst, indem die Summe der quadratischen Differenzen von der vorhergesagten Antwortfläche minimiert wird. Wenn alternativ ein Schwellenwert angewendet werden soll, der auf einer linearen Kombination von Kovariaten basiert, um Teilmengen von Feldern zu klassifizieren, die über- oder unterdüngt waren, liefert die lineare Diskriminanzanalyse überlegene Klassifizierungen. Ein logistisches Modell kann gemäß einer großen Anzahl von Vorhersagemetriken suboptimal sein.
Letztendlich sollte also nicht die Struktur der Daten die Analyse bestimmen, sondern die Frage, die der Analyst zu bewerten versucht.
quelle