Im Jahr 2015 veröffentlichten Tishby und Zaslavsky ein bekanntes Papier, in dem behauptet wurde, dass das sogenannte Prinzip des Informationsengpasses verwendet werden könnte, um das Verhalten tiefer neuronaler Netze zu verstehen. In einem neueren Artikel (April 2017) erweitern Schwartz-Ziv und Tishby diese Behauptungen und visualisieren insbesondere einige der Ergebnisse.
Später im Jahr 2017 veröffentlichte ein kritischer Artikel von Saxe et al. wurde auf der OpenReview-Website veröffentlicht (mit Überarbeitungen erst vor 2 Wochen). Es wird behauptet, dass viele der in der Zeitung Schwartz-Ziv-Tishby gemachten Behauptungen nicht oder zumindest nicht in der behaupteten Allgemeinheit Bestand haben. Wenn ich sie richtig lese, behaupten sie sogar, dass das visualisierte Ergebnis ein Artefakt der Wahl der Aktivierungsfunktion ist - etwas, das nach der Theorie keine Rolle spielen sollte.
In den Kommentaren tauchen Schwartz-Ziv und Tishby jedoch mit einer langen Liste von Kommentaren zum kritischen Papier auf und sagen, dass die Kritik die Marke verfehlt. Darauf antworten wiederum die Autoren des kritischen Papiers, aber vielleicht ist das Gespräch noch nicht beendet.
Ich bin daran interessiert, ein Forschungsprojekt zu den Deep-Learning-Aspekten des Informationsengpasses zu starten, habe aber Angst, dass ich Zeit damit verschwenden werde, etwas zu lernen, das bereits „widerlegt“ wurde. Daher ist meine Frage:
Wie ist die aktuelle Expertenmeinung zur Anwendbarkeit des Informationsengpass-Prinzips auf das Verständnis von Deep Learning?
Insbesondere interessiere ich mich für Forschung zu einem anderen Thema als dem, was ich verlinkt habe, und für Kommentare von Experten (entweder direkt oder indirekt).
quelle
Antworten:
Was ich hier sagen werde, ist, dass die Beweise, dass die Komprimierung eine bessere Untergrenze für die Verallgemeinerung garantiert, akzeptiert werden, aber es ist nicht allgemein akzeptiert, wenn diese Untergrenze praktisch relevant ist.
Beispielsweise kann ein Modell mit besserer Komprimierung die Untergrenze von 1,0 auf 1,5 erhöhen, dies ist jedoch möglicherweise nicht relevant, wenn alle Modelle bereits eine Leistung von 2,0 bis 2,5 aufweisen. Ebenso denke ich, dass es offensichtlich ist, dass die Komprimierung zwar für ein gewisses Maß an garantierter Generalisierung ausreicht, aber eindeutig nicht erforderlich ist (zum Beispiel können invertierbare neuronale Netze eine gute Generalisierung erhalten).
Wahrscheinlich ist die richtige Schlussfolgerung, dass Theorie und Analyse eine nützliche Richtung sind, aber es ist unklar, ob sie etwas über reale Netzwerke aussagen.
quelle