Ist die logistische Regression ein nicht parametrischer Test?

15

Ich habe kürzlich die folgende Frage per E-Mail erhalten. Ich werde eine Antwort unten posten, aber ich war interessiert zu hören, was andere dachten.

Würden Sie logistische Regression als nicht parametrischen Test bezeichnen? Nach meinem Verständnis reicht es nicht aus, einen Test einfach als nicht parametrisch zu kennzeichnen, da seine Daten nicht normal verteilt sind. Es hängt mehr mit dem Fehlen von Annahmen zusammen. Die logistische Regression hat Annahmen.

Jeromy Anglim
quelle
7
(+1) Für die Aufzeichnung - und als Gegenpol zu den Behauptungen in der Frage - kenne ich keine zuverlässige Referenz, die nicht-parametrische Methoden als "fehlende Annahmen" definiert (oder sogar charakterisiert). Alle statistischen Verfahren gehen von Annahmen aus. Die meisten nicht-parametrischen Verfahren machen tatsächlich restriktive quantitative Annahmen über zugrunde liegende Wahrscheinlichkeitsverteilungen, aber diese Annahmen beschränken die möglichen Sachverhalte nicht auf eine Menge, die die Struktur einer endlichen dimensionalen reellen Mannigfaltigkeit hat.
whuber
Wenn es sich um eine lineare logistische Regression handelt (die auf der Grundlage der von Ihnen geschriebenen Antwort implizit zu sein scheint), dann ist dies natürlich ein parametrisches Modell. zB dann gibt es keine parametrischen Einschränkungen für die geschätzte Wahrscheinlichkeit als Funktion vonx. Dies gilt nicht nur für die logistische Verknüpfung. Die gleiche Logik gilt für jede invertierbare Verbindungsfunktion.
log(P(Yi=1|Xi=x)P(Yi=0|Xi=x))=f(x)
x
Makro
Ich frage eine ähnliche Frage hier . Ich beginne das Gefühl zu bekommen, dass einige Fälle des GLM (zB ein logistisches Modell) einen nicht-parametrischen Test liefern. Ich werde mich mit Wassermans Buch befassen, obwohl (sofern ich mich nicht falsch erinnere) einige Prinzipien und Ergebnisse seiner Arbeit nicht übereinstimmen.
AdamO

Antworten:

19

Larry Wasserman definiert ein parametrisches Modell als eine Reihe von Verteilungen, "die durch eine endliche Anzahl von Parametern parametrisiert werden können". (S.87) Im Gegensatz dazu ist ein nichtparametrisches Modell eine Menge von Verteilungen, die nicht durch eine endliche Anzahl von Parametern parametrisiert werden können.

Somit ist die logistische Standardregression nach dieser Definition ein parametrisches Modell. Das logistische Regressionsmodell ist parametrisch, da es einen endlichen Satz von Parametern enthält. Insbesondere sind die Parameter die Regressionskoeffizienten. Diese entsprechen normalerweise einem für jeden Prädiktor plus einer Konstanten. Die logistische Regression ist eine besondere Form des verallgemeinerten linearen Modells. Insbesondere wird eine Logit-Link-Funktion verwendet, um binomial verteilte Daten zu modellieren.

Interessanterweise ist es möglich, eine nichtparametrische logistische Regression durchzuführen (z. B. Hastie, 1983). Dies kann die Verwendung von Splines oder einer Form von nicht parametrischer Glättung zur Modellierung des Effekts der Prädiktoren beinhalten.

Verweise

  • Wasserman, L. (2004). Alle Statistiken: ein prägnanter Kurs in statistischer Inferenz. Springer Verlag.
  • Hastie, T. (1983). Nicht parametrische logistische Regression. SLAC PUB-3160, Juni. PDF
Jeromy Anglim
quelle
Ein Modell ist eine Reihe von Verteilungen? Dort fehlt etwas Wesentliches.
Rolando2
Ist es üblich, eine Frage zu stellen und selbst zu beantworten?
1
@ fcop wird ermutigt. blog.stackoverflow.com/2011/07/…
Jeromy Anglim
Ok, sorry, ich wusste es nicht
Keine Bange. Für mich besteht der Hauptzweck der Website darin, Ressourcen zu erstellen, die andere entdecken, wenn sie in Zukunft nach Antworten suchen. Ihre eigenen Antworten beizutragen, hilft dabei.
Jeromy Anglim
16

Ich würde sagen, dass logistische Regression überhaupt kein Test ist. Eine logistische Regression kann dann jedoch zu keinen oder mehreren Tests führen.

Sie haben völlig Recht damit, dass die Kennzeichnung von nichtparametrischen Elementen, die nicht normal sind, nicht ausreicht. Ich würde die Exponentialfamilie explizit als parametrisch bezeichnen, daher würde ich logistische Regression (und Poisson-Regression und Gamma-Regression und ...) normalerweise als parametrisch betrachten, obwohl es Umstände geben kann, unter denen ich ein Argument akzeptieren könnte, das bestimmte logistische Regressionen könnten als nichtparametrisch (oder zumindest vage von Hand gewellt, nur quasi "parametrisch") angesehen werden.

Hüten Sie sich vor Verwirrung über die beiden Sinne, in denen eine Regression als nichtparametrisch bezeichnet werden kann.

xyx , die durch die Steigungs- und Schnittkoeffizienten parametrisiert ist.

Wenn ich dagegen eine Kernel-Polynom-Regression anpasse (etwa eine lokale lineare Regression), aber mit normalen Fehlern, wird dies auch als nichtparametrisch bezeichnet , aber in diesem Fall ist es die Parametrisierung der Beziehung zwischeny und x Das ist nichtparametrisch (zumindest potentiell unendlich-dimensional), nicht die Fehlerverteilung.

Beide Sinne werden benutzt, aber wenn es um Regression geht, wird die zweite Art tatsächlich häufiger benutzt.

Es ist auch möglich, in beiden Sinnen nichtparametrisch zu sein, aber schwieriger (mit ausreichenden Daten könnte ich zum Beispiel eine Theil-lokal gewichtete lineare Regression anpassen).

Im Fall von GLMs umfasst die zweite Form der nichtparametrischen multiplen Regression GAMs; Diese zweite Form ist der Sinn, in dem Hastie im Allgemeinen operiert (und unter dem er in diesem Zitat operiert).

Glen_b - Setzen Sie Monica wieder ein
quelle
3

Eine hilfreiche Unterscheidung, die ein wenig zu den obigen Antworten beitragen könnte: Andrew Ng gibt eine Heuristik für das, was es bedeutet, in Vorlesung 1 ein nicht parametrisches Modell aus den Kursmaterialien zu sein für Stanfords CS-229-Kurs über maschinelles Lernen.

Dort sagt Ng (S. 14-15):

Lokal gewichtete lineare Regression ist das erste Beispiel für einen nicht parametrischen Algorithmus. Der (ungewichtete) lineare Regressionsalgorithmus, den wir zuvor gesehen haben, ist als parametrischer Lernalgorithmus bekannt, da er eine feste, endliche Anzahl von Parametern (d. H θich's), die zu den Daten passen. Sobald wir das gepasst habenθich's und gespeichert sie weg, müssen wir nicht mehr die Trainingsdaten herum halten, um zukünftige Vorhersagen zu bilden. Um im Gegensatz dazu Vorhersagen unter Verwendung lokal gewichteter linearer Regression zu treffen, müssen wir das gesamte Training auf dem neuesten Stand halten. Der Begriff „nicht parametrisch“ bezieht sich (ungefähr) auf die Tatsache, dass die Menge an Material, die wir benötigen, um die Hypothese darzustellen, beibehalten werden mussh wächst linear mit der Größe des Trainingssatzes.

Ich denke, dies ist eine nützliche kontrastierende Art, darüber nachzudenken, weil sie den Begriff der Komplexität direkt aufgreift. Nicht parametrische Modelle sind von Natur aus nicht weniger komplex, da sie möglicherweise mehr Trainingsdaten benötigen. Dies bedeutet lediglich, dass Sie die Verwendung der Trainingsdaten nicht reduzieren, indem Sie sie zu einer endlich parametrisierten Berechnung komprimieren. Für Effizienz oder Unparteilichkeit oder eine Vielzahl anderer Eigenschaften möchten Sie möglicherweise parametrisieren. Es kann jedoch zu Leistungssteigerungen kommen, wenn Sie auf die Parametrisierung verzichten und viele Daten behalten können.

ely
quelle
0

Ich denke, logistische Regression ist eine parametrische Technik.

Dies könnte hilfreich sein, aus Wolfowitz (1942) [Additive Partitionsfunktionen und eine Klasse statistischer Hypothesen The Annals of Mathematical Statistics, 1942, 13, 247-279]:

„Die verteilungsfunktionen [hinweis: plural !!!] der verschiedenen stochastischen variablen, die in ihre probleme eingehen, haben eine bekannte funktionale form, und die theorien der abschätzung und der testhypothesen sind theorien der abschätzung und des testens von hypothesen über ein oder mehrere Parameter, deren Kenntnis die verschiedenen Verteilungsfunktionen vollständig bestimmen würde. Wir werden diese Situation der Kürze halber als den parametrischen Fall bezeichnen und bezeichnen die entgegengesetzte Situation, in der die funktionalen Formen der Verteilungen unbekannt sind, als den nicht parametrischen Fall.

Nachdem ich dies viel diskutiert hatte, fand ich es auch amüsant von Noether (1984):

"Der Begriff nichtparametrisch mag für theoretische Statistiker eine gewisse historische Bedeutung haben, dient aber nur dazu, angewandte Statistiker zu verwirren."

AndyF
quelle
0

Hastie und Tibshirani definieren, dass die lineare Regression ein parametrischer Ansatz ist, da sie eine lineare funktionale Form von f (X) annimmt. Nichtparametrische Methoden nehmen nicht explizit die Form für f (X) an. Dies bedeutet, dass eine nicht parametrische Methode auf der Grundlage einer Schätzung von f, die aus dem Modell berechnet wird, in das Modell passt. Die logistische Regression legt fest, dass p (x) = Pr (Y = 1 | X = x), wobei die Wahrscheinlichkeit durch die logistische Funktion berechnet wird, die logistische Grenze, die solche Klassen trennt, jedoch nicht angenommen wird, was bestätigt, dass LR auch nicht parametrisch ist

Juan Zamora
quelle