Warum lassen sich neuronale Netze leicht täuschen?

13

Ich habe einige Artikel über das manuelle Ausdenken von Bildern gelesen, um ein neuronales Netzwerk zu "täuschen" (siehe unten).

Liegt das daran, dass die Netzwerke nur die bedingte Wahrscheinlichkeit modellieren ? Wenn ein Netzwerk die gemeinsame Wahrscheinlichkeit p ( y , x ) modellieren kann , treten solche Fälle dann immer noch auf?p(y|x)
p(y,x)

Ich vermute, dass solche künstlich erzeugten Bilder sich von den Trainingsdaten unterscheiden und daher eine geringe Wahrscheinlichkeit für . Daher sollte p ( y , x ) niedrig sein, selbst wenn p ( y | x ) für solche Bilder hoch sein kann.p(x)p(y,x)p(y|x)

Aktualisieren

Ich habe einige generative Modelle ausprobiert. Es stellte sich heraus, dass sie nicht hilfreich sind. Vermutlich ist dies eine Folge von MLE.

Ich meine, in dem Fall, dass KL-Divergenz als Verlustfunktion verwendet wird, beeinflusst der Wert von bei dem p d a t a ( x ) klein ist, den Verlust nicht. Also für ein konstruiertes Bild , das nicht überein p d a t a , der Wert von p θ kann beliebig sein.pθ(x)pdeintein(x)pdeinteinpθ

Aktualisieren

Ich habe einen Blog von Andrej Karpathy gefunden, der dies zeigt

Diese Ergebnisse sind nicht spezifisch für Bilder, ConvNets, und sie sind auch kein „Fehler“ beim Deep Learning.

Bildbeschreibung hier eingeben
EXPLAINING ANDERER BEISPIELE Deep Neural Networks lassen sich leicht täuschen: Hochzuverlässige Vorhersagen für nicht erkennbare Bilder
Bildbeschreibung hier eingeben

dontloo
quelle
Die Frage scheint eher DNNs als NNs im Allgemeinen zu sein?
Matthew Gunn
@MatthewGunn Ich bin nicht sicher, laut der Antwort von seanv507 scheint es ein allgemeineres Problem zu sein.
Dontloo
@MattewGunn erklärt und nutzt kontroverse Beispiele Papier - Shows gilt auch für logistische Regression
Seanv507

Antworten:

10

Die Art von Modellen, auf die Sie sich beziehen, werden als "generative" Modelle bezeichnet und nicht als diskriminierende Modelle. Sie lassen sich nicht wirklich auf hochdimensionale Daten skalieren. Ein Teil der Erfolge von NN bei Sprachaufgaben ist die Abkehr von einem generativen Modell (HMM) von einem diskriminierenderen Modell (z. B. verwendet MEMM eine logistische Regression, mit der Kontextdaten effektiv genutzt werden können. Https://en.wikipedia.org/ wiki / Hidden_Markov_model # Extensions )

Ich würde argumentieren, dass der Grund, warum sie getäuscht werden, ein allgemeineres Problem ist. Es ist die derzeitige Dominanz der "flachen" ML-getriebenen KI gegenüber anspruchsvolleren Methoden. [In vielen Veröffentlichungen wird erwähnt, dass auch andere ML-Modelle leicht zu täuschen sind - http://www.kdnuggets.com/2015/07/deep-learning-adversarial-examples-misconceptions.html - Ian Goodfellow]

Das effektivste 'Sprachmodell' für viele Aufgaben ist 'Wortsack'. Niemand würde behaupten, dass dies ein sinnvolles Modell der menschlichen Sprache darstellt. Es ist nicht schwer sich vorzustellen, dass solche Modelle auch leicht zu täuschen sind.

In ähnlicher Weise wurden Computer-Vision-Aufgaben wie die Objekterkennung durch "visuelle Wortfülle" revolutioniert, die die rechenintensiveren Methoden zunichte machte (die nicht auf massive Datensätze angewendet werden konnten).

CNN: Ich würde eine bessere "visuelle Wortsammlung" argumentieren - wie Sie in Ihren Bildern zeigen, werden die Fehler bei den Funktionen auf Pixelebene / niedriger Ebene gemacht. Trotz aller Übertreibungen gibt es in den verborgenen Ebenen keine hochrangige Darstellung. (Jeder macht Fehler. Der Punkt ist, dass eine Person aufgrund von höherrangigen Merkmalen Fehler macht und z. B. einen Cartoon einer Katze erkennt, den ich nicht sehe.) Ich glaube nicht, dass ein NN).

Ein Beispiel für ein ausgefeilteres Modell des Computer-Sehens (das eine schlechtere Leistung als NN aufweist) ist z. B. das Modell "deformierbarer Teile".

seanv507
quelle
4

Soweit ich weiß, verwenden die meisten neuronalen Netze keine a-priori-Wahrscheinlichkeitsverteilung über die Eingabebilder. Sie könnten jedoch die Auswahl des Trainingssatzes als eine solche Wahrscheinlichkeitsverteilung interpretieren. In dieser Ansicht ist es unwahrscheinlich, dass diese künstlich erzeugten Bilder als Bilder im Testsatz ausgewählt werden. Eine Möglichkeit zur Messung der "Gelenkwahrscheinlichkeit" besteht darin, Bilder zufällig zu generieren und sie dann zu kennzeichnen. Das Problem wäre, dass die große VAST-Mehrheit kein Etikett haben würde. Es würde also zu viel Zeit in Anspruch nehmen, eine angemessene Anzahl von etikettierten Beispielen zu erhalten.

dimpol
quelle
Vielen Dank für Ihre Antwort :) Ich bin mir nicht ganz sicher, was dies bedeutet. "Ein Weg, um die 'gemeinsame Wahrscheinlichkeit' zu messen, besteht darin, Bilder zufällig zu generieren und sie dann zu beschriften." )?
Dontloo
1
Ich meine das Erzeugen von Bildern durch zufälliges Auswählen der RGB-Werte jedes Pixels. Dies würde bedeuten, dass das Panda-Bild oben rechts in Ihrem Beitrag und das Panda-Bild oben links mit gleicher Wahrscheinlichkeit generiert werden. Das Problem dabei ist, dass jedes Pixel 2 ^ 24 mögliche Farben hat und die überwiegende Mehrheit der erzeugten Bilder Unsinn wäre. Wenn Sie auch nur ein einziges Bild erzeugen, das als "Panda" bezeichnet werden könnte, wäre das Universum verschwunden.
dimpol
oh ich verstehe, das scheint eine Menge Arbeit zu sein, trotzdem danke.
Dontloo