Was ist der Unterschied zwischen logistischer Regression und neuronalen Netzen?

32

Wie erklären wir einem Publikum, das keinen statistischen Hintergrund hat, den Unterschied zwischen logistischer Regression und neuronalem Netzwerk?

user16789
quelle
7
Würde jemand ohne statistischen Hintergrund es wirklich wissen wollen? Und was wäre eine akzeptable Erklärung für den Unterschied? Vielleicht eine Metapher. Mit Sicherheit keine der folgenden Antworten (bis jetzt), die alle die Anforderung "ohne Hintergrund" vollständig verfehlen.
Rolando2
3
F: "Wie erklären wir einem Publikum, das keinen statistischen Hintergrund hat, den Unterschied zwischen logistischer Regression und neuronalem Netzwerk?" A: Zuerst musst du ihnen einen Hintergrund in der Statistik geben.
Firebug
2
Ich sehe keinen Grund, warum das nicht offen bleiben sollte. Wir brauchen "erklären ... keinen Hintergrund in der Statistik" nicht so wörtlich zu nehmen. Es ist üblich, nach Erklärungen zu fragen, die für "einen Fünfjährigen" oder "Ihre Großmutter" funktionieren würden. Dies sind nur umgangssprachliche Methoden, um nach nicht (oder zumindest weniger ) technischen Antworten zu fragen . Genauer gesagt, versuchen Antworten immer, mehrere Einschränkungen gleichzeitig zu erfüllen, wie z. B. Genauigkeit & Kürze; Hier fügen wir die Minimierung der technischen Anforderungen hinzu. Es gibt keinen Grund, warum wir keine Frage haben können, die eine weniger technische Erklärung für den Unterschied zwischen LR und ANNs sucht.
gung - Wiedereinsetzung von Monica
2
@mbq Es ist lustig, dass es im November 2012 möglich war, neuronale Netze als veraltet zu bezeichnen.
LittleO
2
@littleO Das steht so ziemlich noch; Wenn Sie NNs'18 mit NNs'12 vergleichen, werden Sie feststellen, dass der Fortschritt darin besteht, Ähnlichkeiten mit tatsächlichen Netzwerken und Neuronen zu beseitigen und stattdessen weiter in Ensembles algebraischer Operationen mit stochastischer Optimierung einzusteigen. Aber sicher, anscheinend hat sich die Marke NN als so mächtig erwiesen, dass sie lange leben und gedeihen wird, unabhängig davon, was sie bedeutet.

Antworten:

27

Ich nehme an, Sie denken an das, was früher war, und werden in Ihrer Frage zu neuronalen Netzen vielleicht immer noch als "mehrschichtige Perzeptrone" bezeichnet. Wenn ja, dann würde ich das Ganze in Bezug auf Flexibilität über die Form der Entscheidungsgrenze in Abhängigkeit von erklärenden Variablen erklären. Insbesondere für diese Zielgruppe würde ich keine Link-Funktionen / Log-Gewinnchancen usw. erwähnen. Denken Sie nur daran, dass die Wahrscheinlichkeit eines Ereignisses auf der Grundlage einiger Beobachtungen vorhergesagt wird.

Hier ist eine mögliche Reihenfolge:

  • Stellen Sie sicher, dass sie wissen, was eine vorhergesagte Wahrscheinlichkeit ist. Zeigen Sie es als Funktion einer Variablen im Kontext einiger vertrauter Daten. Erklären Sie den Entscheidungskontext, der von der logistischen Regression und den neuronalen Netzen geteilt wird.
  • Beginnen Sie mit der logistischen Regression. Geben Sie an, dass es sich um den linearen Fall handelt, zeigen Sie jedoch die Linearität der resultierenden Entscheidungsgrenze mithilfe eines Wärme- oder Konturdiagramms der Ausgabewahrscheinlichkeiten mit zwei erklärenden Variablen.
  • Beachten Sie, dass zwei Klassen möglicherweise nicht gut durch die Begrenzung getrennt sind, die sie sehen, und motivieren Sie ein flexibleres Modell, eine kurvigere Begrenzung zu erstellen. Zeigen Sie bei Bedarf einige Daten an, die sich auf diese Weise gut unterscheiden lassen. (Deshalb fängst du mit 2 Variablen an)
  • Beachten Sie, dass Sie könnte beginnt das ursprüngliche lineare Modell mit zusätzlichen Bedingungen zu verkomplizieren, zB Quadrate oder anderen Transformationen, und vielleicht die Grenzen zeigen , dass diese erzeugen.
  • Aber verwerfen Sie diese dann, und beachten Sie, dass Sie nicht im Voraus wissen, wie die Funktionsform aussehen soll, und dass Sie es vorziehen, sie aus den Daten zu lernen. Beachten Sie, dass dies in der Regel unmöglich ist, und gehen Sie davon aus, dass es zumindest "glatt" und nicht "abgehackt" sein sollte, aber ansonsten von den Daten bestimmt wird. (Nehmen Sie an, dass sie wahrscheinlich bereits an glatte Grenzen gedacht haben, so wie sie ihr ganzes Leben lang Prosa gesprochen hatten).
  • Zeigen Sie die Ausgabe eines verallgemeinerten additiven Modells, wobei die Ausgabewahrscheinlichkeit eine gemeinsame Funktion des Paars der ursprünglichen Variablen ist und keine echte additive Kombination - dies dient nur zu Demonstrationszwecken. Nennen Sie es vor allem " weicher", denn das ist nett und allgemein und beschreibt die Dinge intuitiv. Demonstrieren Sie die nichtlineare Entscheidungsgrenze im Bild wie zuvor.
  • Beachten Sie, dass dieser (derzeit anonyme) Glätter einen Glättungsparameter hat, der steuert, wie glatt er tatsächlich ist. Dies wird im Übrigen als eine vorherige Annahme über die Glätte der Funktion angesehen, die die erklärenden Variablen in die vorhergesagte Wahrscheinlichkeit umwandelt. Zeigen Sie möglicherweise die Konsequenzen unterschiedlicher Glätteinstellungen an der Entscheidungsgrenze.
  • Stellen Sie nun das neuronale Netz als Diagramm vor. Weisen Sie darauf hin, dass die zweite Ebene nur ein logistisches Regressionsmodell ist, weisen Sie jedoch auch auf die nichtlineare Transformation hin, die in den verborgenen Einheiten stattfindet. Erinnern Sie das Publikum daran, dass dies nur eine weitere Funktion von Eingabe zu Ausgabe ist, deren Entscheidungsgrenze nicht linear ist.
  • Beachten Sie, dass es viele Parameter gibt und dass einige davon eingeschränkt werden müssen, um eine reibungslose Entscheidungsgrenze zu erreichen. Führen Sie die Idee einer Zahl, die die Glätte kontrolliert, als dieselbe (begrifflich) Zahl ein, die die Parameter zusammenhält und von der sie fernhält extreme Werte. Beachten Sie auch, dass je mehr verborgene Einheiten vorhanden sind, desto mehr verschiedene Arten von Funktionsformen möglich sind. Um die Intuition aufrechtzuerhalten, sprechen Sie über verborgene Einheiten in Bezug auf Flexibilität und Parameterbeschränkung in Bezug auf Glätte (trotz der mathematischen Schlamperei dieser Charakterisierung).
  • Überraschen Sie sie dann, indem Sie behaupten, dass Sie die funktionale Form immer noch nicht kennen. Sie möchten also unendlich flexibel sein, indem Sie eine unendliche Anzahl von versteckten Einheiten hinzufügen. Lassen Sie die praktische Unmöglichkeit dieses sinken. Beobachten Sie dann, dass diese Grenze in der Mathematik genommen werden kann, und fragen Sie (rhetorisch), wie so etwas aussehen würde.
  • Beantworten Sie, dass es wieder reibungsloser wäre (ein Gauß-Prozess, wie es passiert; Neal, 1996, aber dieses Detail ist nicht wichtig), wie der, den sie zuvor gesehen haben. Beachten Sie, dass es wieder eine Größe gibt, die die Glätte steuert, aber keine anderen bestimmten Parameter (heraus integriert, für diejenigen, die sich für solche Dinge interessieren).
  • Schließen Sie, dass neuronale Netze bestimmte, implizit begrenzte Implementierungen gewöhnlicher Glätter sind, die die nichtlinearen, nicht notwendigerweise additiven Erweiterungen des logistischen Regressionsmodells darstellen. Machen Sie es dann andersherum und schließen Sie daraus, dass die logistische Regression einem neuronalen Netzwerkmodell oder einem Glättungsverfahren entspricht, bei dem der Glättungsparameter auf "extra extra glatt", dh linear eingestellt ist.

Der Vorteil dieses Ansatzes besteht darin, dass Sie sich nicht wirklich mit mathematischen Details befassen müssen, um die richtige Idee zu erhalten. Tatsächlich müssen sie weder logistische Regression noch neuronale Netze verstehen, um die Ähnlichkeiten und Unterschiede zu verstehen.

Der Nachteil des Ansatzes ist, dass Sie viele Bilder machen müssen und der Versuchung, sich in die Algebra fallen zu lassen, um Dinge zu erklären, stark widerstehen.

Conjugateprior
quelle
14

Für eine einfachere Zusammenfassung:

Logistische Regression: Die einfachste Form des neuronalen Netzwerks, die zu geraden Entscheidungsgrenzen führt

Bildbeschreibung hier eingeben

Neuronale Netze: Eine Obermenge, die logistische Regression und andere Klassifikatoren umfasst, die komplexere Entscheidungsgrenzen erzeugen können.

Bildbeschreibung hier eingeben

(Anmerkung: Ich beziehe mich auf eine "einfache" logistische Regression ohne die Unterstützung integraler Kernel.)

(Referenz: deeplearning.ai Kurse von Andrew Ng, "Logistische Regression als neuronales Netzwerk" und "Planare Datenklassifikation mit einer verborgenen Schicht")

Eusebio Rufian-Zilbermann
quelle
1
Aus all den aktuellen Antworten denke ich, dass dies am realistischsten ist, wenn man die Konzepte einer Person ohne statistischen Hintergrund erklärt.
Firebug
1
Ein logistischer Regressionsklassifikator ist also ein neuronales Netzwerk? Das macht sehr viel Sinn.
Björn Lindqvist
8

Ich werde die Frage wörtlich nehmen: Jemand ohne Hintergrund in der Statistik. Und ich werde nicht versuchen, dieser Person einen statistischen Hintergrund zu geben. Angenommen, Sie müssen dem CEO eines Unternehmens den Unterschied erklären.

Also: Logistische Regression ist ein Werkzeug zum Modellieren einer kategorialen Variablen in Bezug auf andere Variablen. Auf diese Weise können Sie herausfinden, wie sich Änderungen in den "anderen" Variablen auf die Chancen der verschiedenen Ergebnisse in der ersten Variablen auswirken. Die Ausgabe ist ziemlich einfach zu interpretieren.

Neuronale Netze sind eine Reihe von Methoden, mit denen ein Computer versucht, anhand von Beispielen auf eine Art und Weise zu lernen, die in etwa der Art und Weise entspricht, wie Menschen über Dinge lernen. Dies kann zu Modellen führen, die gute Prädiktoren darstellen, die jedoch in der Regel viel undurchsichtiger sind als die Modelle aus der logistischen Regression.

Peter Flom - Wiedereinsetzung von Monica
quelle
5
+1 Dies ist eine gute erste Anstrengung, um die ursprüngliche Herausforderung anzugehen, eine Erklärung zu liefern, die von einem Laien verstanden werden kann, die jedoch einigermaßen klar und genau ist.
Whuber
2
Sie müssen erklären, was "kategorisch", "variabel", "Gewinnchancen" sind. Künstliche Neuronale Netze sind lediglich von realen Neuronalen Netzen inspiriert. Unser Gehirn kann, soweit wir wissen, nicht durch Rückvermehrung lernen. Also ja, es ist meistens ein cooler Begriff für ein relativ vereinfachtes Konzept. Außerdem ist die logistische Regression eine Form des neuronalen Netzwerks, also gibt es das auch.
Firebug
7

Mir wurde beigebracht, dass man sich neuronale Netze (mit logistischen Aktivierungsfunktionen) als gewichteten Durchschnitt der Logitfunktionen vorstellen kann, wobei die Gewichte selbst geschätzt werden. Durch Auswahl einer großen Anzahl von Protokollen können Sie jede funktionale Form anpassen. Der Blog-Beitrag von Econometric Sense enthält einige grafische Informationen .

Dimitriy V. Masterov
quelle
6

Die anderen Antworten sind großartig. Ich möchte einfach einige Bilder hinzufügen, die zeigen, dass Sie sich die logistische Regression und die logistische Regression mehrerer Klassen (auch bekannt als Maxent, multinomiale logistische Regression, Softmax-Regression, Maximum-Entropy-Klassifikator) als eine spezielle Architektur neuronaler Netze vorstellen können.

Von Sebastian Raschka, Michigan State University, über KDnuggets :

Bildbeschreibung hier eingeben


Noch ein paar Beispiele für die logistische Regression in mehreren Klassen:

Bildbeschreibung hier eingeben

Eine ähnliche Illustration aus http://www.deeplearningbook.org/ Kapitel 1:

Bildbeschreibung hier eingeben

Und noch eines aus TensorFlow-Tutorials :

Bildbeschreibung hier eingeben

In Caffe würden Sie beispielsweise die logistische Regression folgendermaßen implementieren :

Bildbeschreibung hier eingeben

Franck Dernoncourt
quelle
2
Berechnet die Backpropagation in einem solchen neuronalen Netzwerk die gleichen Gewichte wie die logistische Regression?
Mitch
1
@ Mitch - Ich komme vielleicht zu spät zum Spiel, um etwas beizutragen. Ein wesentlicher Unterschied besteht darin, dass für eine logistische Regression die mle verwendet wird, um die Koeffizienten zu erhalten. Dies ist im Wesentlichen die Wahl einer bestimmten Fehler- oder Verlustfunktion. Für ein neuronales Netz ist die Verlustfunktion eine der Auswahlmöglichkeiten. Mit dem korrekten Verlust fn (ich glaube, es ist die Standard-L ^ 2-Norm) ist dies der Fall.
Aginensky
Die logistische Regression kann also genauso formuliert werden wie ADALINE (einschichtiges neuronales Netzwerk, das Batch / Stochastic-Gradient-Descent verwendet), wobei der einzige wesentliche Unterschied darin besteht, dass die Aktivierungsfunktion auf Sigmoid anstatt linear geändert wird und die Vorhersagefunktion mit auf> = 0,5 geändert wird 0,1 Beschriftungen anstelle von> = 0 mit -1,1 Beschriftungen. Ein weiterer stark bevorzugter, aber optionaler Unterschied ist die Änderung der Kostenfunktion von RSS zu Logistikkostenfunktion, da die Sigmoid-Aktivierung dazu führt, dass RSS nicht konvex ist, sodass RSS in lokalen Minimas stecken bleibt.
Austin
5

Ich würde ein Beispiel für ein kompliziertes, aber konkretes Problem verwenden, das das Publikum versteht. Verwenden Sie versteckte Knoten, deren Interpretationen nicht trainiert sind, sondern bestimmte Bedeutungen haben.

64×12

Die lineare Regression bestimmt, wie gut es ist, einen weißen Springer auf h4 zu haben. Es mag nicht offensichtlich sein, dass es überhaupt gut ist, aber wenn es auf h4 ist, wurde es nicht erfasst, was wahrscheinlich andere Überlegungen überwiegt. Die lineare Regression stellt wahrscheinlich die groben Werte der Figuren wieder her und es ist besser, die Figuren in Richtung der Mitte des Bretts und auf der Seite des Bretts des Gegners zu haben. Lineare Regression ist nicht in der Lage, Kombinationen zu bewerten, so dass Ihre Dame auf b2 plötzlich wertvoller ist, wenn der gegnerische König auf a1 ist.

Ein neuronales Netzwerk könnte versteckte Knoten für Konzepte haben, wie "materieller Vorteil", "Sicherheit des schwarzen Königs", "Kontrolle des Zentrums", "beide Türme in der D-Datei", "isolierter Königin-Turm-Bauer" oder "Bischof" Mobilität." Einige davon können nur anhand der Platineingaben geschätzt werden, andere müssen sich möglicherweise in einer zweiten oder späteren verborgenen Schicht befinden. Das neuronale Netz kann diese als Eingaben für die endgültige Bewertung der Position verwenden. Diese Konzepte helfen einem Experten bei der Bewertung einer Position. Ein neuronales Netzwerk sollte daher in der Lage sein, genauere Bewertungen vorzunehmen als eine lineare Regression. Die Erstellung des neuronalen Netzwerks ist jedoch aufwändiger, da Sie dessen Struktur auswählen müssen und viel mehr Parameter zum Trainieren zur Verfügung stehen.

Douglas Zare
quelle