Ich habe kürzlich die folgende Frage per E-Mail erhalten. Ich werde eine Antwort unten posten, aber ich war interessiert zu hören, was andere dachten.
Würden Sie logistische Regression als nicht parametrischen Test bezeichnen? Nach meinem Verständnis reicht es nicht aus, einen Test einfach als nicht parametrisch zu kennzeichnen, da seine Daten nicht normal verteilt sind. Es hängt mehr mit dem Fehlen von Annahmen zusammen. Die logistische Regression hat Annahmen.
hypothesis-testing
logistic
nonparametric
Jeromy Anglim
quelle
quelle
Antworten:
Larry Wasserman definiert ein parametrisches Modell als eine Reihe von Verteilungen, "die durch eine endliche Anzahl von Parametern parametrisiert werden können". (S.87) Im Gegensatz dazu ist ein nichtparametrisches Modell eine Menge von Verteilungen, die nicht durch eine endliche Anzahl von Parametern parametrisiert werden können.
Somit ist die logistische Standardregression nach dieser Definition ein parametrisches Modell. Das logistische Regressionsmodell ist parametrisch, da es einen endlichen Satz von Parametern enthält. Insbesondere sind die Parameter die Regressionskoeffizienten. Diese entsprechen normalerweise einem für jeden Prädiktor plus einer Konstanten. Die logistische Regression ist eine besondere Form des verallgemeinerten linearen Modells. Insbesondere wird eine Logit-Link-Funktion verwendet, um binomial verteilte Daten zu modellieren.
Interessanterweise ist es möglich, eine nichtparametrische logistische Regression durchzuführen (z. B. Hastie, 1983). Dies kann die Verwendung von Splines oder einer Form von nicht parametrischer Glättung zur Modellierung des Effekts der Prädiktoren beinhalten.
Verweise
quelle
Ich würde sagen, dass logistische Regression überhaupt kein Test ist. Eine logistische Regression kann dann jedoch zu keinen oder mehreren Tests führen.
Sie haben völlig Recht damit, dass die Kennzeichnung von nichtparametrischen Elementen, die nicht normal sind, nicht ausreicht. Ich würde die Exponentialfamilie explizit als parametrisch bezeichnen, daher würde ich logistische Regression (und Poisson-Regression und Gamma-Regression und ...) normalerweise als parametrisch betrachten, obwohl es Umstände geben kann, unter denen ich ein Argument akzeptieren könnte, das bestimmte logistische Regressionen könnten als nichtparametrisch (oder zumindest vage von Hand gewellt, nur quasi "parametrisch") angesehen werden.
Hüten Sie sich vor Verwirrung über die beiden Sinne, in denen eine Regression als nichtparametrisch bezeichnet werden kann.
Wenn ich dagegen eine Kernel-Polynom-Regression anpasse (etwa eine lokale lineare Regression), aber mit normalen Fehlern, wird dies auch als nichtparametrisch bezeichnet , aber in diesem Fall ist es die Parametrisierung der Beziehung zwischeny und x Das ist nichtparametrisch (zumindest potentiell unendlich-dimensional), nicht die Fehlerverteilung.
Beide Sinne werden benutzt, aber wenn es um Regression geht, wird die zweite Art tatsächlich häufiger benutzt.
Es ist auch möglich, in beiden Sinnen nichtparametrisch zu sein, aber schwieriger (mit ausreichenden Daten könnte ich zum Beispiel eine Theil-lokal gewichtete lineare Regression anpassen).
Im Fall von GLMs umfasst die zweite Form der nichtparametrischen multiplen Regression GAMs; Diese zweite Form ist der Sinn, in dem Hastie im Allgemeinen operiert (und unter dem er in diesem Zitat operiert).
quelle
Eine hilfreiche Unterscheidung, die ein wenig zu den obigen Antworten beitragen könnte: Andrew Ng gibt eine Heuristik für das, was es bedeutet, in Vorlesung 1 ein nicht parametrisches Modell aus den Kursmaterialien zu sein für Stanfords CS-229-Kurs über maschinelles Lernen.
Dort sagt Ng (S. 14-15):
Ich denke, dies ist eine nützliche kontrastierende Art, darüber nachzudenken, weil sie den Begriff der Komplexität direkt aufgreift. Nicht parametrische Modelle sind von Natur aus nicht weniger komplex, da sie möglicherweise mehr Trainingsdaten benötigen. Dies bedeutet lediglich, dass Sie die Verwendung der Trainingsdaten nicht reduzieren, indem Sie sie zu einer endlich parametrisierten Berechnung komprimieren. Für Effizienz oder Unparteilichkeit oder eine Vielzahl anderer Eigenschaften möchten Sie möglicherweise parametrisieren. Es kann jedoch zu Leistungssteigerungen kommen, wenn Sie auf die Parametrisierung verzichten und viele Daten behalten können.
quelle
Ich denke, logistische Regression ist eine parametrische Technik.
Dies könnte hilfreich sein, aus Wolfowitz (1942) [Additive Partitionsfunktionen und eine Klasse statistischer Hypothesen The Annals of Mathematical Statistics, 1942, 13, 247-279]:
Nachdem ich dies viel diskutiert hatte, fand ich es auch amüsant von Noether (1984):
quelle
Hastie und Tibshirani definieren, dass die lineare Regression ein parametrischer Ansatz ist, da sie eine lineare funktionale Form von f (X) annimmt. Nichtparametrische Methoden nehmen nicht explizit die Form für f (X) an. Dies bedeutet, dass eine nicht parametrische Methode auf der Grundlage einer Schätzung von f, die aus dem Modell berechnet wird, in das Modell passt. Die logistische Regression legt fest, dass p (x) = Pr (Y = 1 | X = x), wobei die Wahrscheinlichkeit durch die logistische Funktion berechnet wird, die logistische Grenze, die solche Klassen trennt, jedoch nicht angenommen wird, was bestätigt, dass LR auch nicht parametrisch ist
quelle