Die Frage klingt vielleicht etwas seltsam, weil ich statistische Inferenz und neuronale Netze noch nicht kenne.
Bei Klassifizierungsproblemen mit neuronalen Netzen wollen wir eine Funktion lernen , die den Raum der Eingänge auf den Raum der Ausgänge abbildet : x y
Passen wir die Parameter ( ) an, um eine nichtlineare Funktion oder eine Wahrscheinlichkeitsdichtefunktion zu modellieren?
Ich weiß nicht wirklich, wie ich die Frage besser schreiben soll. Ich habe beide Dinge mehrmals gelesen (Wahrscheinlichkeitsdichtefunktion oder Funktion einfach so), daher meine Verwirrung.
Im Allgemeinen werden neuronale Netze nicht zum Modellieren vollständiger Wahrscheinlichkeitsdichten verwendet. Ihr Fokus liegt darauf, nur den Mittelwert einer Verteilung (oder in einer deterministischen Situation einfach eine nichtlineare Funktion) zu modellieren. Dennoch ist es sehr gut möglich, vollständige Wahrscheinlichkeitsdichten über neuronale Netze zu modellieren.
Ein einfacher Weg, dies zu tun, besteht zum Beispiel in einem Gaußschen Fall darin, den Mittelwert von einer Ausgabe und die Varianz von einer anderen Ausgabe des Netzwerks zu emittieren und dann die Funktion als Teil von zu minimieren der Trainingsprozess anstelle des allgemeinen quadratischen Fehlers. Dies ist das Maximum-Likelihood-Verfahren für ein neuronales Netzwerk.- l o gN( y| x; μ,σ)
Wenn Sie dieses Netzwerk jedes Mal trainieren, wenn Sie einen Wert als Eingabe eingeben , erhalten Sie das μ und das σ . Anschließend können Sie das gesamte Triplett y , μ , σ mit der Dichte f ( y | x ) ∼ N ( μ , σ ) um den Dichtewert für jedes beliebige y zu erhalten . In diesem Stadium können Sie den zu verwendenden y- Wert basierend auf einer realen Domain-Loss-Funktion auswählen. Beachten Sie, dass für μ die Aktivierung des Ausgangs nicht eingeschränkt sein sollte, damit Sie Folgendes ausgeben können :x μ σ y,μ,σ f(y|x)∼N(μ,σ) y y μ bis + inf, während σ nur eine positive Aktivierung sein sollte.−inf +inf σ
Sofern es sich nicht um eine deterministische Funktion handelt, nach der wir streben, ist das in neuronalen Netzen verwendete Standardtraining mit quadratischem Verlust so ziemlich das gleiche Verfahren, das ich oben beschrieben habe. Unter der Haube a Verteilung implizit ohne Sorge um die angenommen wird , σ und wenn man sorgfältig prüfen - l o g N ( y | x ; μ , σ ) erhalten Sie einen Ausdruck für squared Verlust ( Der Verlust Funktion des Gaußschen Maximum-Likelihood-Schätzers ). In diesem Szenario jedoch anstelle eines yGaussian σ −logN(y|x;μ,σ) y Wenn Sie einen Wert nach Ihren Wünschen wählen, müssen Sie jedes Mal ausgeben, wenn Sie einen neuen x- Wert erhalten.μ x
Für die Klassifikation wird die Ausgabe a sein Verteilung anstelle eines G a u s s i a n , die einen einzigen Parameter auszusenden hat. Wie in der anderen Antwort angegeben, liegt dieser Parameter zwischen 0 und 1, sodass die Aktivierung des Ausgangs entsprechend erfolgen sollte. Dies kann eine logistische Funktion sein oder etwas anderes, das den gleichen Zweck erfüllt.Bernoulli Gaussian 0 1
Ein differenzierterer Ansatz ist Bishops Mixture Density Networks. Sie können darüber in dem Artikel nachlesen, auf den häufig verwiesen wird:
https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf
quelle
Meine abweichende Antwort lautet, dass es in den eindrucksvollsten praktischen Anwendungen (zum Beispiel in den Medien, in denen sie am meisten Beachtung finden) weder auf die Funktion noch auf die Wahrscheinlichkeiten ankommt. Sie implementieren stochastische Entscheidungen.
An der Oberfläche sieht es so aus, als würden NN nur die Funktion anpassen und die universelle Approximationsreferenz in die Warteschlange stellen . In einigen Fällen kann NN die Wahrscheinlichkeitsverteilungen erzeugen, wenn bestimmte Aktivierungsfunktionen und bestimmte Annahmen wie Gaußsche Fehler verwendet werden oder wenn Sie Artikel in Bayes'schen Netzwerken lesen.
Dies ist jedoch alles nur nebenbei. NN soll die Entscheidungsfindung modellieren. Wenn ein Auto von AI gefahren wird, versucht seine NN nicht, die Wahrscheinlichkeit zu berechnen, dass es ein Objekt vor sich hat, vorausgesetzt, es gibt ein Objekt, mit dem die Wahrscheinlichkeit berechnet werden kann, dass es sich um einen Menschen handelt. Es wird auch nicht die Zuordnung von Sensoreingaben zu verschiedenen Arten von Objekten berechnet. Nein, NN soll eine Entscheidung treffen, die auf allen Eingaben basiert, um seitwärts zu lenken oder weiter durchzufahren. Es berechnet nicht die Wahrscheinlichkeit, es sagt dem Auto, was zu tun ist.
quelle