Bedeutung des Bias-Knotens in neuronalen Netzen

19

Ich bin gespannt, wie wichtig der Bias-Knoten für die Wirksamkeit moderner neuronaler Netze ist. Ich kann leicht verstehen, dass es in einem flachen Netzwerk mit nur wenigen Eingabevariablen wichtig sein kann. Moderne neuronale Netze wie das Deep Learning verfügen jedoch häufig über eine große Anzahl von Eingabevariablen, um zu entscheiden, ob ein bestimmtes Neuron ausgelöst wird. Würde es überhaupt Auswirkungen haben, sie einfach aus LeNet5 oder ImageNet zu entfernen?

pir
quelle
@gung - Ich habe gesehen, dass Sie den Titel bearbeitet haben, um die Phrase "Bias Node" zu verwenden. Ich bin gespannt, warum Sie diesen Titel bevorzugen. Ich habe diese Verwendung noch nie gehört. Darüber hinaus erscheint es verwirrend, das Wort "Knoten" zu verwenden, wenn der Bias kein separater Knoten in einem Netzwerk ist.
Pir
2
Wenn Sie es nicht mögen, können Sie die Bearbeitung mit meiner Entschuldigung zurücksetzen. Ich dachte immer, der Name sei ziemlich normal, obwohl ich seit Jahren keine w / ANNs mehr gespielt habe und manche nennen ihn stattdessen das "Bias-Neuron". FWIW, "Bias" ist in der Statistik / ML etwas mehrdeutig; es bezieht sich am häufigsten auf einen Schätzer, dessen Stichprobenverteilung nicht auf den wahren Wert des Parameters zentriert ist, oder auf eine Vorhersagefunktion / einen Vorhersagewert, der sich von der wahren Funktion / dem wahren Mittelwert usw. unterscheidet, während der Bias-Knoten ein spezifischer Teil von a ist ANN.
gung - Wiedereinsetzung von Monica
2
Es ist ein tatsächlicher Knoten im Netzwerk - zumindest in dem Sinne, dass es sich um einen von ihnen handelt. Siehe z. B. die schwarzen Knoten in diesem Bild .
gung - Wiedereinsetzung von Monica
Okay, das macht Sinn - es ist wahr, dass "Voreingenommenheit" ziemlich mehrdeutig ist. Danke für die Erklärung.
Pir
1
Bei Neuronen scheint die Bias-Einheit spontan zu feuern, dies geschieht in der Natur.
user3927612

Antworten:

15

Das Entfernen der Vorspannung wirkt sich definitiv auf die Leistung aus. Deshalb ...

Jedes Neuron ist wie eine einfache logistische Regression und Sie haben . Die Eingabewerte werden mit den Gewichten multipliziert und die Vorspannung beeinflusst das anfängliche Quetschniveau in der Sigmoidfunktion (tanh usw.), was die gewünschte Nichtlinearität zur Folge hat.y=σ(Wx+b)

Zum Beispiel wird angenommen , dass Sie ein Neuron zum Feuer wollen , wenn alle Eingangspixel schwarz sind x 0 . Wenn es keine Verzerrung gibt, egal welche Gewichte W Sie haben, feuert das Neuron bei gegebener Gleichung y = σ ( W x ) immer y 0,5 .y1x0Wy=σ(Wx)y0.5

Wenn Sie daher die Verzerrungsterme entfernen, verringern Sie die Leistung Ihres neuronalen Netzwerks erheblich.

Yannis Assael
quelle
2
Danke, das macht Sinn. Ich denke, auch wenn die meisten modernen Netze ReLU als Aktivierungsfunktion verwenden (siehe z. B. papers.nips.cc/paper/4824-imagenet ), könnte dies dennoch relevant sein, wenn das Netz ausgelöst werden muss , wenn alle Eingabepixel schwarz sind. ReLU ist definiert als f (x) = max (0, x).
Pir
genau! Es ist der gleiche Fall ...
Yannis Assael
4
y1x0x0y0.5
2
Obwohl ich der Theorie zustimme, sollte darauf hingewiesen werden, dass bei modernen großen Netzen die Chancen, eine Eingabe von Null zu erhalten, vernachlässigbar sind. Dies beruht auch auf der Annahme, dass ein Netz, das ein 1-tiefes Netz abfeuern möchte, sich höchstwahrscheinlich nicht um die Ausgabe einzelner Neuronen kümmert - dies ist zum Teil der Grund, warum Dropout zum Regularisieren von Netzen so beliebt ist.
Max Gordon
2
@ MaxGordon ist richtig. Diese Antwort gilt nicht für diese Frage. Versuchen Sie, die Verzerrung aus einem großen Netzwerk zu entfernen, und Sie werden feststellen, dass dies nur einen geringen Unterschied macht.
Neil G
10

Ich bin mit der anderen Antwort im speziellen Kontext Ihrer Frage nicht einverstanden. Ja, ein Bias-Knoten ist in einem kleinen Netzwerk von Bedeutung. In einem großen Modell macht das Entfernen der Vorspannungseingaben jedoch nur einen geringen Unterschied, da jeder Knoten aus der durchschnittlichen Aktivierung aller seiner Eingaben einen Vorspannungsknoten machen kann, was nach dem Gesetz der großen Zahlen in etwa normal ist. Auf der ersten Ebene hängt die Möglichkeit dazu von Ihrer Eingabeverteilung ab. Für MNIST beispielsweise ist die durchschnittliche Aktivierung des Eingangs ungefähr konstant.

In einem kleinen Netzwerk benötigen Sie natürlich einen Bias-Eingang, aber in einem großen Netzwerk macht das Entfernen fast keinen Unterschied. (Aber warum würden Sie es entfernen?)

Neil G
quelle
3

Ich würde @ NeilGs Antwort kommentieren, wenn ich genug Ruf hätte, aber leider ...

Ich stimme dir nicht zu, Neil. Du sagst:

... die durchschnittliche Aktivierung aller seiner Eingaben, die nach dem Gesetz der großen Zahlen in etwa normal sein wird.

Ich würde dagegen argumentieren und sagen, dass das Gesetz der großen Anzahl erfordert, dass alle Beobachtungen unabhängig voneinander sind. Dies ist in so etwas wie neuronalen Netzen nicht der Fall. Selbst wenn jede Aktivierung normal verteilt ist, ändert sich die Wahrscheinlichkeit aller anderen Eingaben, wenn Sie feststellen, dass ein Eingabewert außergewöhnlich hoch ist. Somit sind die "Beobachtungen", in diesem Fall Eingaben, nicht unabhängig und das Gesetz der großen Zahlen findet keine Anwendung.

Es sei denn, ich verstehe Ihre Antwort nicht.

ArturJ
quelle