Multinomiale logistische Regression vs. binäre logistische 1-gegen-Rest-Regression

36

Nehmen wir an, wir haben eine abhängige Variable mit wenigen Kategorien und einer Menge unabhängiger Variablen. Y

Was sind die Vorteile einer multinomialen logistischen Regression gegenüber einer Reihe von binären logistischen Regressionen (dh einem Ein-gegen-Rest-Schema )? Mit binärer logistischer Regression meine ich, dass wir für jede Kategorie ein separates binäres logistisches Regressionsmodell mit target = 1 erstellen, wenn und andernfalls 0.yiYY=yi

Tomek Tarczynski
quelle
3
Mathematisch gesehen ist ein multinomiales Logit-Modell eine Reihe von binären Logit-Modellen, die alle mit einer Basisalternative verglichen werden. Da Sie jedoch generische Parameter reduzieren und möglicherweise einige andere kombinieren müssen, ist die MNL immer mindestens genauso effizient (und wahrscheinlich auch effizienter). Ich sehe keinen Grund, jemals eine Reihe von Binomialmodellen zu verwenden.
Gregmacfarlane
2
@gmacfarlane: Ich habe versucht, Daten zu simulieren, bei denen MNL besser ist als eine Reihe von binären logistischen Regressionen, aber die Qualität war im Durchschnitt jedes Mal gleich. Ich habe Lift-Charts verglichen und nach der Mittelung der Ergebnisse aus wenigen Simulationen sehen sie fast gleich aus. Vielleicht haben Sie eine Idee, wie Sie Daten generieren können, damit MNL binäre logistische Regressionen schlägt? Obwohl MNL einen großen Vorteil hatte, konnten seine Ergebnisse als Wahrscheinlichkeit interpretiert werden.
Tomek Tarczynski
Multinomial Logistic Regression ist die Erweiterung der binären Logit-Regression. Es wird verwendet, wenn die abhängigen Variablen der Studie drei oder mehr sind, während das binäre Logit verwendet wird, wenn die abhängigen Variablen der Studie zwei sind.
An den Leser: Ich empfehle, bei der Antwort von @ julieth zu beginnen und anschließend ttnphns zu lesen. Ich denke, das erstere beantwortet die ursprüngliche Frage direkter, aber das letztere fügt einen interessanten Kontext hinzu. ttnphns zeigt auch die verschiedenen Funktionen, die für beide in einer beliebten Softwareroutine zur Verfügung stehen, die selbst einen Grund darstellen könnten, eine über die andere zu verwenden (siehe die Aussage von gregmacfarlane).
Ben Ogorek

Antworten:

21

Wenn mehr als zwei Kategorien hat, ist Ihre Frage nach dem "Vorteil" einer Regression gegenüber der anderen wahrscheinlich bedeutungslos, wenn Sie die Parameter der Modelle vergleichen möchten , da sich die Modelle grundlegend unterscheiden:Y

logP(i)P(not i)=logiti=linear combination für jede binäre logistische Regression, undi

logP(i)P(r)=logiti=linear combination für jede Kategorie in mehrfacher logistischer Regression, wobei die ausgewählte Referenzkategorie ist ( ).irir

Allerdings, wenn Ihr Ziel ist nur Wahrscheinlichkeit vorherzusagen jede Kategorie entweder Ansatz ist gerechtfertigt, wenn auch sie unterschiedliche Wahrscheinlichkeitsschätzungen geben können. Die Formel zum Schätzen einer Wahrscheinlichkeit ist generisch:i

P(i)=exp(logiti)exp(logiti)+exp(logitj)++exp(logitr) , wobei alle Kategorien sind, und wenn als Referenz gewählt wurde, ist . Für die binäre Logistik die gleiche Formel also . Multinomiale Logistik beruht auf der (nicht immer realistischen) Annahme der Unabhängigkeit von irrelevanten Alternativen, während dies bei einer Reihe von binären logistischen Vorhersagen nicht der Fall ist.i,j,,rrexp(logit)=1P(i)=exp(logiti)exp(logiti)+1


Ein eigenes Thema ist , was technische Unterschiede zwischen multinomial und binären logistischen Regressionen in Fall sind , wenn ist dichotomous . Wird es Unterschiede bei den Ergebnissen geben? Meistens sind die Ergebnisse ohne Kovariaten gleich, es gibt jedoch Unterschiede in den Algorithmen und in den Ausgabeoptionen. Lassen Sie mich nur die SPSS-Hilfe zu diesem Problem in SPSS zitieren:Y

Binäre logistische Regressionsmodelle können entweder mit dem Verfahren der logistischen Regression oder mit dem Verfahren der multinomialen logistischen Regression angepasst werden. Jede Prozedur verfügt über Optionen, die in der anderen nicht verfügbar sind. Eine wichtige theoretische Unterscheidung besteht darin, dass das Verfahren der logistischen Regression alle Vorhersagen, Residuen, Einflussstatistiken und Anpassungstests unter Verwendung von Daten auf Einzelfallebene erstellt, unabhängig davon, wie die Daten eingegeben werden und ob die Anzahl der Kovariatenmuster vorliegt oder nicht ist kleiner als die Gesamtzahl der Fälle, während das multinomiale logistische Regressionsverfahren Fälle intern aggregiert, um Subpopulationen mit identischen Kovariatenmustern für die Prädiktoren zu bilden, wobei auf Basis dieser Subpopulationen Vorhersagen, Residuen und Anpassungstests erstellt werden.

Die logistische Regression bietet die folgenden einzigartigen Funktionen:

• Hosmer-Lemeshow-Test auf Passgenauigkeit für das Modell

• Schrittweise Analysen

• Kontraste zur Definition der Modellparametrisierung

• Alternative Schnittpunkte für die Klassifizierung

• Klassifizierungsdiagramme

• Modell auf einem Koffersatz auf einem ausgestreckten Koffersatz montiert

• Speichert Vorhersagen, Residuen und Einflussstatistiken

Multinomial Logistic Regression bietet die folgenden einzigartigen Funktionen:

• Pearson- und Abweichungs-Chi-Quadrat-Tests für die Passgenauigkeit des Modells

• Angabe von Teilpopulationen zur Gruppierung von Daten für Anpassungstests

• Auflistung von Zählungen, vorhergesagten Zählungen und Residuen nach Teilpopulationen

• Korrektur von Varianzschätzungen für Überstreuung

• Kovarianzmatrix der Parameterschätzungen

• Tests linearer Parameterkombinationen

• Explizite Angabe verschachtelter Modelle

• Passen Sie 1-1 übereinstimmende Modelle für bedingte logistische Regression unter Verwendung differenzierter Variablen an

ttnphns
quelle
Ich weiß, dass diese Modelle anders sein werden, aber ich weiß nicht, welches in welcher Situation besser ist. Ich werde die Frage auf andere Weise stellen. Wenn Sie eine Aufgabe erhalten haben: Sagen Sie für jede Person die Wahrscheinlichkeit voraus, dass ein Mobilfunkunternehmen das beliebteste Unternehmen ist (nehmen wir an, dass jedes Unternehmen das beliebteste Mobilfunkunternehmen hat). Welche dieser Methoden würden Sie anwenden und welche Vorteile haben Sie gegenüber der zweiten?
Tomek Tarczynski
@Tomek Ich habe meine Antwort ein wenig erweitert
ttnphns
Obwohl ich denke, dass @ julieth die beste Antwort auf die ursprüngliche Frage von OP ist, schulde ich Ihnen die Einführung in die Annahme der Unabhängigkeit von irrelevanten Alternativen. Eine Frage, die ich immer noch habe, ist, ob es wirklich um eine separate Logistik geht. In dem Wikipedia-Artikel, den Sie mit "probit" und "nested logit" verlinkt haben, werden Verstöße gegen IIA
Ben Ogorek
Können Sie erläutern, wie die Modelle mit einer Auswahl an Referenzkategorien ausgestattet werden? Verwenden wir für die Kategorie nur eine Teilmenge der Daten, die entweder in der Referenzkategorie oder in der Kategorie für ? iriir
user21359
13

Aufgrund des Titels gehe ich davon aus, dass "Vorteile der multiplen logistischen Regression" "multinomiale Regression" bedeuten. Es gibt oft Vorteile, wenn das Modell gleichzeitig angepasst wird. Diese besondere Situation wird in Agresti (Categorical Data Analysis, 2002) S. 273 beschrieben. In Summe (Agresti paraphrasieren) erwarten Sie, dass sich die Schätzungen von einem gemeinsamen Modell von einem geschichteten Modell unterscheiden. Die einzelnen Logistikmodelle weisen tendenziell größere Standardfehler auf, obwohl dies möglicherweise nicht so schlimm ist, wenn das häufigste Ergebnisniveau als Referenzniveau festgelegt wird.

julieth
quelle
Vielen Dank! Ich werde versuchen, dieses Buch zu finden, leider bietet google.books nur Inhalt bis Seite 268.
Tomek Tarczynski
@TomekTarczynski Ich habe die relevanten Informationen aus dem Absatz zusammengefasst, sodass Sie möglicherweise keine weiteren Informationen zu dieser Frage erhalten, wenn Sie sich das Buch ansehen (obwohl das Buch großartig ist und Sie andere gute Informationen erhalten).
14.
4
Zitat aus dem Agresti-Buch: "Die getrennten Anpassungsschätzungen unterscheiden sich von den ML-Schätzungen für die gleichzeitige Anpassung der J-1-Protokolle. Sie sind weniger effizient und weisen tendenziell größere Standardfehler auf. Begg und Gray 1984 zeigten jedoch, dass der Effizienzverlust ist geringfügig, wenn die Antwortkategorie mit der höchsten Prävalenz der Ausgangswert ist. "
Franck Dernoncourt