Zu der Frage, ob in der logistischen Regression (und ihrer angenommenen Verteilung) ein Fehlerbegriff vorhanden ist, habe ich an verschiedenen Stellen gelesen, dass:
- Es existiert kein Fehlerbegriff
- der Fehlerterm hat eine Binomialverteilung (entsprechend der Verteilung der Antwortvariablen)
- Der Fehlerbegriff hat eine logistische Verteilung
Kann das bitte jemand klären?
Antworten:
In der linearen Regression wird angenommen, dass Beobachtungen einer Gaußschen Verteilung mit einem von den Prädiktorwerten abhängigen mittleren Parameter folgen. Wenn Sie den Mittelwert von den Beobachtungen subtrahieren, erhalten Sie den Fehler : Eine Gauß-Verteilung mit dem Mittelwert Null und unabhängig von den Prädiktorwerten - das heißt, Fehler bei einem Satz von Prädiktorwerten folgen derselben Verteilung.
In logistischen Regressionsbeobachtungen wird angenommen, dass einer Bernoulli-Verteilung † mit einem Mittelwertparameter (einer Wahrscheinlichkeit) folgt , der von den Prädiktorwerten abhängig ist. Für jeden gegebenen Prädiktorwert, der einen Mittelwert π bestimmt, gibt es also nur zwei mögliche Fehler: 1 - π , der mit der Wahrscheinlichkeit π auftritt , & 0 - π , der mit der Wahrscheinlichkeit 1 - π auftritt . Für andere Prädiktorwerte werden die Fehler 1 - π 'sein, die mit der Wahrscheinlichkeit π ' auftreten.y∈{0,1} π 1−π π 0−π 1−π 1−π′ π′ & mit einer Wahrscheinlichkeit von auftretenden 1 - π ' . Daher gibt es keine gemeinsame Fehlerverteilung, die von den Prädiktorwerten unabhängig ist, weshalb die Leute sagen, dass kein Fehlerterm existiert (1).0−π′ 1−π′
„Der Fehlerterm hat eine Binomialverteilung“ (2) ist nur sloppiness- „Gauß'sche Modelle Gaußschen Fehler haben, ergo Binomialmodelle hat binomische errors“. (Oder, wie @whuber hervorhebt, es könnte so verstanden werden, dass "der Unterschied zwischen einer Beobachtung und ihrer Erwartung eine Binomialverteilung hat, die durch die Erwartung übersetzt wird".)
"The error term has a logistic distribution" (3) arises from the derivation of logistic regression from the model where you observe whether or not a latent variable with errors following a logistic distribution exceeds some threshold. So it's not the same error defined above. (It would seem an odd thing to say IMO outside that context, or without explicit reference to the latent variable.)
† If you havek observations with the same predictor values, giving the same probability π for each, then their sum ∑y follows a binomial distribution with probability π and no. trials k . Considering ∑y−kπ as the error leads to the same conclusions.
quelle
This has been covered before. A model that is constrained to have predicted values in[0,1] cannot possibly have an additive error term that would make the predictions go outside [0,1] . Think of the simplest example of a binary logistic model -- a model containing only an intercept. This is equivalent to the Bernoulli one-sample problem, often called (in this simple case) the binomial problem because (1) all the information is contained in the sample size and number of events or (2) the Bernoulli distribution is a special case of the binomial distribution with n=1 . The raw data in this situation are a series of binary values, and each has a Bernoulli distribution with unknown parameter θ representing the probability of the event. There is no error term in the Bernoulli distribution, there's just an unknown probability. The logistic model is a probability model.
quelle
To me the unification of logistic, linear, poisson regression etc... has always been in terms of specification of the mean and variance in the Generalized Linear Model framework. We start by specifying a probability distribution for our data, normal for continuous data, Bernoulli for dichotomous, Poisson for counts, etc...Then we specify a link function that describes how the mean is related to the linear predictor:
For linear regression,g(μi)=μi .
For logistic regression,g(μi)=log(μi1−μi) .
For Poisson regression,g(μi)=log(μi) .
The only thing one might be able to consider in terms of writing an error term would be to state:
Note, however, that basic Generalized Linear Models only assume a structure for the mean and variance of the distribution. It can be shown that the estimating equations and the Hessian matrix only depend on the mean and variance you assume in your model. So you don't necessarily need to be concerned with the distribution ofei for this model because the higher order moments don't play a role in the estimation of the model parameters.
quelle
quelle