Ein menschliches Kind im Alter von 2 Jahren benötigt ungefähr 5 Instanzen eines Autos, um es mit angemessener Genauigkeit zu identifizieren, unabhängig von Farbe, Fabrikat usw. Als mein Sohn 2 Jahre alt war, konnte er Straßenbahnen und Züge identifizieren, obwohl er sie gesehen hatte nur ein paar. Da er normalerweise miteinander verwechselte, war sein neuronales Netzwerk anscheinend nicht genug trainiert, aber immer noch.
Was fehlt an künstlichen neuronalen Netzen, das sie daran hindert, viel schneller zu lernen? Ist Transferlernen eine Antwort?
neural-networks
neuroscience
Marcin
quelle
quelle
Antworten:
Ich warne davor, starke Ähnlichkeiten zwischen biologischen und künstlichen neuronalen Netzen zu erwarten. Ich denke, der Name "Neuronale Netze" ist ein bisschen gefährlich, weil er die Leute dazu verleitet, zu erwarten, dass neurologische Prozesse und maschinelles Lernen gleich sein sollten. Die Unterschiede zwischen biologischen und künstlichen neuronalen Netzen überwiegen die Ähnlichkeiten.
Als Beispiel dafür, wie dies schief gehen kann, können Sie auch die Argumentation im ursprünglichen Beitrag auf den Kopf stellen. Sie können ein neuronales Netzwerk trainieren, um zu lernen, Autos an einem Nachmittag zu erkennen, vorausgesetzt, Sie haben einen relativ schnellen Computer und einige Trainingsdaten. Sie können dies zu einer Binäraufgabe (Auto / nicht Auto) oder zu einer Mehrklassenaufgabe (Auto / Straßenbahn / Fahrrad / Flugzeug / Boot) machen und sich dennoch auf ein hohes Maß an Erfolg verlassen.
Im Gegensatz dazu würde ich nicht erwarten, dass ein Kind am Tag oder sogar in der Woche nach seiner Geburt ein Auto aussuchen kann, auch wenn es "so viele Trainingsbeispiele" gesehen hat. Offensichtlich unterscheidet sich etwas zwischen einem Zweijährigen und einem Säugling, was den Unterschied in der Lernfähigkeit erklärt, wohingegen ein neuronales Netzwerk für die Vanillebildklassifikation in der Lage ist, die Objektklassifikation unmittelbar nach der "Geburt" aufzunehmen. Ich denke, dass es zwei wichtige Unterschiede gibt: (1) das relative Volumen der verfügbaren Trainingsdaten und (2) einen Selbstlernmechanismus, der sich im Laufe der Zeit aufgrund der zahlreichen Trainingsdaten entwickelt.
Der ursprüngliche Beitrag enthält zwei Fragen. Titel und Hauptteil der Frage stellen die Frage, warum neuronale Netze "so viele Beispiele" benötigen. Im Vergleich zur Erfahrung eines Kindes haben neuronale Netze, die unter Verwendung gemeinsamer Bild-Benchmarks trainiert wurden, vergleichsweise wenig Daten.
Ich werde die Frage im Titel umformulieren
"Wie vergleicht und kontrastiert das Trainieren eines neuronalen Netzwerks für einen gemeinsamen Image-Benchmark die Lernerfahrung eines Kindes?"
Zum Vergleich werde ich die CIFAR-10-Daten heranziehen, da es sich um einen gängigen Image-Benchmark handelt. Der beschriftete Teil besteht aus 10 Bildklassen mit 6000 Bildern pro Klasse. Jedes Bild ist 32x32 Pixel groß. Wenn Sie die beschrifteten Bilder von CIFAR-10 auf irgendeine Weise gestapelt und ein Standardvideo mit 48 fps erstellt hätten, hätten Sie ungefähr 20 Minuten Filmmaterial.
Ein Kind im Alter von 2 Jahren, das die Welt täglich 12 Stunden lang beobachtet, hat ungefähr 263000 Minuten (mehr als 4000 Stunden) direkte Beobachtungen der Welt, einschließlich der Rückmeldungen von Erwachsenen (Etiketten). (Dies sind nur Zahlen aus dem Baseballstadion - ich weiß nicht, wie viele Minuten ein typischer Zweijähriger damit verbracht hat, die Welt zu beobachten.) Außerdem wird das Kind vielen, vielen Objekten ausgesetzt sein, die über die 10 Klassen hinausgehen, aus denen CIFAR besteht. 10.
Es spielen also ein paar Dinge eine Rolle. Zum einen ist das Kind insgesamt mehr Daten ausgesetzt und verfügt über eine vielfältigere Datenquelle als das CIFAR-10-Modell. Datenvielfalt und Datenvolumen sind allgemein als Voraussetzungen für robuste Modelle anerkannt. In diesem Licht scheint es nicht verwunderlich, dass ein neuronales Netzwerk bei dieser Aufgabe schlechter ist als das Kind, da ein auf CIFAR-10 trainiertes neuronales Netzwerk im Vergleich zum Zweijährigen einen positiven Mangel an Trainingsdaten aufweist. Die Bildauflösung, die einem Kind zur Verfügung steht, ist besser als die 32x32-CIFAR-10-Bilder, sodass das Kind Informationen über die feinen Details von Objekten erhalten kann.
Der Vergleich zwischen CIFAR-10 und zwei Jahren ist nicht perfekt, da das CIFAR-10-Modell wahrscheinlich mit mehreren Durchläufen über dieselben statischen Bilder trainiert wird, während das Kind mit Hilfe der binokularen Sicht sieht, wie Objekte in drei angeordnet sind Welt bei Bewegung und mit unterschiedlichen Lichtverhältnissen und Perspektiven auf die gleichen Objekte.
Die Anekdote über OPs Kind impliziert eine zweite Frage:
"Wie können neuronale Netze autodidaktisch werden?"
Ein Kind verfügt über ein gewisses Talent zum Autodidakt, sodass im Laufe der Zeit neue Kategorien von Objekten hinzugefügt werden können, ohne von vorne beginnen zu müssen.
Die Bemerkung von OP zum Transferlernen nennt eine Art von Modellanpassung im Kontext des maschinellen Lernens.
In Kommentaren haben andere Benutzer darauf hingewiesen, dass One- und Little-Shot-Learning * ein weiteres Forschungsgebiet des maschinellen Lernens ist.
Darüber hinaus befasst sich das Bestärkungslernen mit Autodidaktmodellen aus einer anderen Perspektive, sodass Roboter im Wesentlichen experimentieren können, um optimale Strategien zur Lösung spezifischer Probleme (z. B. Schach spielen) zu finden.
Es ist wahrscheinlich richtig, dass alle drei dieser Paradigmen des maschinellen Lernens wesentlich dazu beitragen, die Anpassung von Maschinen an neue Bildverarbeitungsaufgaben zu verbessern. Die schnelle Anpassung von Modellen des maschinellen Lernens an neue Aufgaben ist ein aktives Forschungsgebiet. Da die praktischen Ziele dieser Projekte (neue Malware-Instanzen identifizieren, Betrüger in Passfotos erkennen, das Internet indizieren) und die Erfolgskriterien sich von den Zielen eines Kindes unterscheiden, das etwas über die Welt lernt, und von der Tatsache, dass dies in der Vergangenheit getan wurde Ein Computer, der Mathematik verwendet, und der andere, der Chemie verwendet, besteht aus organischem Material. Ein direkter Vergleich zwischen beiden wird schwierig bleiben.
Abgesehen davon wäre es interessant zu untersuchen, wie das CIFAR-10-Problem umgedreht und ein neuronales Netzwerk trainiert werden kann, um 6000 Objekte aus jeweils 10 Beispielen zu erkennen. Aber selbst dies wäre kein fairer Vergleich zum 2-Jährigen, da es immer noch große Diskrepanzen in Bezug auf Gesamtvolumen, Vielfalt und Auflösung der Trainingsdaten geben würde.
* Derzeit gibt es keine Tags für One-Shot-Learning oder Little-Shot-Learning.
quelle
Zunächst einmal weiß ein Kind im Alter von zwei Jahren viel über die Welt und wendet dieses Wissen aktiv an. Ein Kind macht viel "Transferlernen", indem es dieses Wissen auf neue Konzepte anwendet.
Zweitens sieht ein Kind, bevor es diese fünf "etikettierten" Beispiele von Autos sieht, viele Autos auf der Straße, im Fernsehen, in Spielzeugautos usw., so dass auch viel "unbeaufsichtigtes Lernen" im Voraus stattfindet.
Schließlich haben neuronale Netze fast nichts mit dem menschlichen Gehirn gemeinsam, so dass es nicht sinnvoll ist, sie zu vergleichen. Beachten Sie auch, dass es Algorithmen für das einmalige Lernen gibt, und dass derzeit ziemlich viel Forschung darüber stattfindet.
quelle
Ein wichtiger Aspekt, den ich in den aktuellen Antworten nicht sehe, ist die Evolution .
Das Gehirn eines Kindes lernt nicht von Grund auf. Es ist vergleichbar mit der Frage, wie Hirsche und Giraffenbabys ein paar Minuten nach der Geburt laufen können. Weil sie mit einem Gehirn geboren werden, das für diese Aufgabe bereits verkabelt ist. Natürlich ist eine Feinabstimmung erforderlich, aber das Rehbaby lernt nicht, durch "zufällige Initialisierung" zu laufen.
Ebenso ist die Tatsache, dass große bewegliche Objekte existieren und wichtig sind, um den Überblick zu behalten, etwas, mit dem wir geboren wurden.
Daher halte ich die Voraussetzung dieser Frage einfach für falsch. Menschliche neuronale Netze hatten die Möglichkeit, Tonnen von - vielleicht nicht Autos, sondern - sich bewegenden, rotierenden 3D-Objekten mit schwierigen Texturen und Formen usw. zu sehen. Dies geschah jedoch über viele Generationen und das Lernen erfolgte durch evolutionäre Algorithmen, dh solche, deren Gehirn war für diese Aufgabe besser strukturiert, konnte sich mit höherer Wahrscheinlichkeit vermehren und ließ die nächste Generation von Anfang an mit immer besserer Gehirnverdrahtung zurück.
quelle
Ich weiß nicht viel über neuronale Netze, aber ich weiß einiges über Babys.
Viele 2-Jährige haben viele Probleme damit, wie allgemeine Wörter sein sollten. Beispielsweise ist es in diesem Alter durchaus üblich, dass Kinder "Hund" für ein beliebiges vierbeiniges Tier verwenden. Das ist eine schwierigere Unterscheidung als "Auto" - man denke nur daran, wie unterschiedlich ein Pudel zum Beispiel von einer Dogge aussieht und dennoch beide "Hund" sind, während eine Katze es nicht ist.
Und ein Kind im Alter von 2 Jahren hat viel, viel mehr als 5 Beispiele für "Auto" gesehen. Ein Kind sieht Dutzende oder sogar Hunderte von Beispielen von Autos, wenn die Familie eine Autofahrt unternimmt. Und viele Eltern werden mehr als fünf Mal einen Kommentar zum Thema "Schau dir das Auto an" abgeben. Kinder können aber auch so denken, wie man es ihnen nicht erzählt hat. Zum Beispiel sieht das Kind auf der Straße viele Dinge in einer Reihe. Sein Vater sagt (von einem) "Schau dir das glänzende Auto an!" und der Junge denkt: "Vielleicht sind all diese anderen Dinge auch Autos?"
quelle
Dies ist eine faszinierende Frage, über die ich auch viel nachgedacht habe und auf die ich einige Erklärungen geben kann, warum.
quelle
Das Konzept der "Instanzen" wird leicht matschig. Während ein Kind vielleicht 5 einzigartige Exemplare eines Autos gesehen hat, hat es tatsächlich Tausende von Bildern in vielen verschiedenen Umgebungen gesehen. Sie haben wahrscheinlich Autos in anderen Zusammenhängen gesehen. Sie haben auch eine Intuition für die physische Welt, die sich im Laufe ihres Lebens entwickelt hat - wahrscheinlich geschieht hier etwas Transferlernen. Aber wir packen das alles in "5 Instanzen".
In der Zwischenzeit wird jedes einzelne Bild, das Sie an eine CNN übergeben, als "Beispiel" betrachtet. Wenn Sie eine konsistente Definition anwenden, verwenden beide Systeme tatsächlich eine viel ähnlichere Menge an Trainingsdaten.
Außerdem möchte ich darauf hinweisen, dass Faltungs-Neuronale Netze (CNNs) in der Bildverarbeitung nützlicher sind als ANNs und sich in der Tat der menschlichen Leistung bei Aufgaben wie der Bildklassifizierung nähern. Deep Learning ist (wahrscheinlich) kein Allheilmittel, aber es funktioniert auf diesem Gebiet bewundernswert.
quelle
Wie von anderen hervorgehoben, variiert die Dateneffizienz künstlicher neuronaler Netze in Abhängigkeit von den Details erheblich. Tatsächlich gibt es viele sogenannte One-Shot-Lernmethoden, mit denen die Aufgabe, Straßenbahnen mit nur einer einzigen beschrifteten Probe mit einer recht guten Genauigkeit zu beschriften, gelöst werden kann.
Ein Weg, dies zu tun, ist das sogenannte Transferlernen; Ein Netzwerk, das auf anderen Etiketten trainiert wurde, ist normalerweise sehr effektiv an neue Etiketten anpassbar, da die harte Arbeit darin besteht, die Komponenten auf niedriger Ebene des Bildes auf vernünftige Weise zu zerlegen.
Wir benötigen jedoch keine so gekennzeichneten Daten, um diese Aufgabe auszuführen. Ähnlich wie Babys brauchen sie nicht annähernd so viele beschriftete Daten wie die neuronalen Netze, an die Sie denken.
Eine solche unbeaufsichtigte Methode, die ich auch in anderen Kontexten erfolgreich angewendet habe, besteht darin, einen unbeschrifteten Satz von Bildern aufzunehmen, diese zufällig zu drehen und ein Netzwerk zu trainieren, um vorherzusagen, welche Seite des Bildes „oben“ ist. Ohne zu wissen, was die sichtbaren Objekte sind oder wie sie genannt werden, zwingt dies das Netzwerk, eine enorme Menge an Struktur über die Bilder zu lernen. und dies kann eine ausgezeichnete Basis für ein viel dateneffizienteres anschließendes Lernen mit Etiketten bilden.
Zwar unterscheiden sich künstliche Netzwerke in wahrscheinlich sinnvoller Weise von realen Netzwerken, z. B. durch das Fehlen eines offensichtlichen Analogons der Rückübertragung. Es ist jedoch sehr wahrscheinlich, dass reale neuronale Netzwerke dieselben Tricks anwenden und versuchen, das zu lernen Struktur in den Daten durch einige einfache Prioritäten impliziert.
Ein weiteres Beispiel, das mit ziemlicher Sicherheit eine Rolle bei Tieren spielt und auch für das Verständnis von Videos vielversprechend ist, ist die Annahme, dass die Zukunft aus der Vergangenheit vorhersehbar sein sollte. Wenn Sie von dieser Annahme ausgehen, können Sie einem neuronalen Netzwerk eine ganze Menge beibringen. Oder auf einer philosophischen Ebene neige ich dazu zu glauben, dass diese Annahme fast allem zugrunde liegt, was wir als "Wissen" betrachten.
Ich sage hier nichts Neues; Es ist jedoch relativ neu in dem Sinne, dass diese Möglichkeiten zu jung sind, um noch viele Anwendungen zu finden, und noch nicht auf das Lehrbuchverständnis zurückgeführt wurden, was ein ANN tun kann. Also, um die OPs Frage zu beantworten; ANNs haben bereits einen Großteil der von Ihnen beschriebenen Lücke geschlossen.
quelle
Eine Möglichkeit, ein tiefes neuronales Netzwerk zu trainieren, besteht darin, es als Stapel von Auto-Encodern ( Restricted Boltzmann Machines ) zu behandeln.
Theoretisch lernt ein Auto-Encoder unbeaufsichtigt: Er nimmt beliebige, unbeschriftete Eingabedaten auf und verarbeitet sie, um Ausgabedaten zu generieren. Dann nimmt es diese Ausgabedaten und versucht, ihre Eingabedaten neu zu generieren. Es ändert die Parameter seiner Knoten, bis es die Daten fast vollständig auslöst. Wenn Sie darüber nachdenken, schreibt der Auto-Encoder seine eigenen automatisierten Komponententests. Tatsächlich wandelt es seine "unbeschrifteten Eingabedaten" in beschriftete Daten um: Die Originaldaten dienen als Beschriftung für die rundgesteuerten Daten.
Nachdem die Schichten von Autocodierern trainiert wurden, wird das neuronale Netzwerk unter Verwendung von beschrifteten Daten feinabgestimmt, um seine beabsichtigte Funktion auszuführen. In der Tat sind dies Funktionstests.
Das Originalplakat fragt, warum viele Daten zum Trainieren eines künstlichen neuronalen Netzwerks benötigt werden, und vergleicht dies mit der angeblich geringen Menge an Trainingsdaten, die ein zweijähriger Mensch benötigt. Das Originalplakat vergleicht Äpfel mit Orangen: Der gesamte Trainingsprozess für das künstliche neuronale Netz im Vergleich zur Feinabstimmung mit Etiketten für den Zweijährigen.
In Wirklichkeit trainiert der Zweijährige seine Auto-Encoder seit mehr als zwei Jahren mit zufälligen, selbstbeschrifteten Daten. Babys träumen, wenn sie in der Gebärmutter sind . (Kätzchen auch.) Forscher haben diese Träume als zufällige Neuronenschüsse in den visuellen Verarbeitungszentren beschrieben.
quelle
Wir lernen nicht, "Autos zu sehen", bis wir sehen lernen
Es dauert ziemlich lange und es gibt viele Beispiele für ein Kind, um zu lernen, wie man Objekte als solche sieht. Danach kann ein Kind anhand weniger Beispiele lernen, einen bestimmten Objekttyp zu identifizieren . Wenn Sie ein zweijähriges Kind mit einem Lernsystem vergleichen, das buchstäblich von einer leeren Tafel ausgeht, handelt es sich um einen Vergleich zwischen Äpfeln und Orangen. In diesem Alter hat das Kind Tausende von Stunden "Videomaterial" gesehen.
In ähnlicher Weise sind viele Beispiele für künstliche neuronale Netze erforderlich, um zu lernen, wie man sieht. Danach ist es jedoch möglich, dieses Wissen auf neue Beispiele zu übertragen. Transferlernen ist eine ganze Domäne des maschinellen Lernens, und Dinge wie "One-Shot-Lernen" sind möglich - Sie können ANNs erstellen, die lernen, neue Arten von Objekten, die sie zuvor noch nicht gesehen haben, anhand eines einzigen Beispiels zu identifizieren oder eines zu identifizieren bestimmte Person von einem einzigen Foto ihres Gesichts. Für diesen ersten Teil des "Sehenlernens" sind jedoch ziemlich viele Daten erforderlich.
Darüber hinaus gibt es Hinweise darauf, dass nicht alle Trainingsdaten gleich sind, dh, dass Daten, die Sie während des Lernens "auswählen", effektiver sind als Daten, die Ihnen lediglich zur Verfügung gestellt werden. ZB Held & Hein Zwillingskätzchen-Experiment. https://www.lri.fr/~mbl/ENS/FONDIHM/2013/papers/about-HeldHein63.pdf
quelle
Eine Sache, die ich in den Antworten bisher nicht gesehen habe, ist die Tatsache, dass eine "Instanz" eines realen Objekts, die von einem menschlichen Kind gesehen wird, keiner Instanz im Kontext des NN-Trainings entspricht.
Angenommen, Sie stehen mit einem 5-jährigen Kind an einem Bahnübergang und beobachten, wie 5 Züge innerhalb von 10 Minuten vorbeifahren. Jetzt könnte man sagen "Mein Kind hat nur 5 Züge gesehen und kann andere Züge zuverlässig identifizieren, während ein NN Tausende von Bildern benötigt!". Obwohl dies wahrscheinlich zutrifft, ignorieren Sie völlig die Tatsache, dass jeder Zug, den Ihr Kind sieht, VIEL mehr Informationen enthält als ein einzelnes Bild eines Zuges. Tatsächlich verarbeitet das Gehirn Ihres Kindes mehrere Dutzend Bilder des vorbeifahrenden Zuges pro Sekunde, jedes aus einem etwas anderen Winkel, verschiedenen Schatten usw., während ein einziges Bild dem NN nur sehr begrenzte Informationen liefert. In diesem Zusammenhang verfügt Ihr Kind sogar über Informationen, die dem NN nicht zur Verfügung stehen, z. B. die Geschwindigkeit des Zuges oder das Geräusch, das der Zug macht.
Außerdem kann Ihr Kind sprechen und FRAGEN STELLEN! "Züge sind sehr lang, oder?" "Ja.", "Und sie sind auch sehr groß, oder?" "Ja.". Mit zwei einfachen Fragen lernt Ihr Kind in weniger als einer Minute zwei sehr wichtige Funktionen!
Ein weiterer wichtiger Punkt ist die Objekterkennung. Ihr Kind kann sofort erkennen, auf welches Objekt, dh auf welchen Teil des Bildes es sich konzentrieren muss, während ein NN lernen muss, das relevante Objekt zu erkennen, bevor es versuchen kann, es zu klassifizieren.
quelle
Ich würde behaupten, dass die Leistung nicht so unterschiedlich ist, wie Sie es vielleicht erwarten, aber Sie stellen eine großartige Frage (siehe den letzten Absatz).
Wie Sie Transferlernen erwähnen: Um Äpfel mit Äpfeln zu vergleichen, müssen wir schauen, wie viele Bilder insgesamt und wie viele Bilder der interessierenden Klasse ein menschliches / neuronales Netz "sieht".
1. Wie viele Bilder sieht ein Mensch an?
Die Augenbewegung des Menschen dauert etwa 200 ms, was als eine Art "biologisches Foto" angesehen werden könnte. Sehen Sie sich den Vortrag des Computer Vision Experten Fei-Fei Li an: https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures#t-362785 .
Sie fügt hinzu:
In ImageNet, der führenden Datenbank zur Objekterkennung, gibt es ~ 14 Millionen beschriftete Bilder. Ein auf ImageNet trainiertes neuronales Netzwerk hätte also so viele Bilder gesehen wie ein 14000000/5/60/60/24 * 2 ~ 64 Tage altes Baby, also zwei Monate alt (vorausgesetzt, das Baby ist die Hälfte seines Lebens wach). Um fair zu sein, ist es schwer zu sagen, wie viele dieser Bilder beschriftet sind. Darüber hinaus sind die Bilder, die ein Baby sieht, nicht so vielfältig wie in ImageNet. (Wahrscheinlich sieht das Baby ihre Mutter über die Zeit verfügen, ...;). Ich denke jedoch, es ist fair zu sagen, dass Ihr Sohn Hunderte von Millionen von Bildern gesehen hat (und dann Transfer Learning anwendet).
Wie viele Bilder brauchen wir, um eine neue Kategorie zu lernen, wenn wir eine solide Basis verwandter Bilder haben, aus denen wir (Transfer) lernen können?
Der erste Blog-Beitrag, den ich gefunden habe, war folgender: https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html . Sie verwenden 1000 Beispiele pro Klasse. Ich könnte mir vorstellen, dass 2,5 Jahre später noch viel weniger erforderlich ist. Ein Mensch kann jedoch 1000 Bilder in 1000/5/60 in 3,3 Minuten sehen.
Sie schrieben:
Dies entspricht 40 Sekunden pro Instanz (mit verschiedenen Winkeln des Objekts, um es vergleichbar zu machen).
Fazit: Wie gesagt, ich musste ein paar Annahmen treffen. Aber ich denke, man kann sehen, dass die Leistung nicht so unterschiedlich ist, wie man es erwarten könnte.
Ich glaube jedoch, dass Sie eine großartige Frage stellen und hier ist, warum:
2. Würden neuronale Netze eine bessere / andere Leistung erbringen, wenn sie eher wie Gehirne funktionieren würden? (Geoffrey Hinton sagt ja).
In einem Interview mit https://www.wired.com/story/googles-ai-guru-computers-think-more-like-brains/ vergleicht er Ende 2018 die aktuellen Implementierungen neuronaler Netzwerke mit dem Gehirn. Er erwähnt, dass die künstlichen neuronalen Netze gewichtsmäßig um den Faktor 10.000 kleiner sind als das Gehirn. Daher braucht das Gehirn viel weniger Iterationen von Trainings, um zu lernen. Damit künstliche neuronale Netze mehr wie unser Gehirn funktionieren können, folgt er einem anderen Hardwaretrend, einem in Großbritannien ansässigen Startup namens Graphcore. Es reduziert die Berechnungszeit durch eine intelligente Art der Speicherung der Gewichte eines neuronalen Netzwerks. Daher können mehr Gewichte verwendet werden und die Trainingszeit der künstlichen neuronalen Netze kann reduziert werden.
quelle
Ich bin ein Experte in diesem Bereich. Ich bin ein Mensch, ich war ein Baby, ich habe ein Auto und ich mache AI.
Der Grund, warum Babys Autos mit viel weniger Beispielen in die Hand nehmen, ist die Intuition. Das menschliche Gehirn hat bereits Strukturen, um mit 3D-Rotationen umzugehen. Es gibt auch zwei Augen, die eine Parallaxe für die Tiefenkartierung liefern, was wirklich hilft. Sie können zwischen einem Auto und einem Bild eines Autos intuitiv unterscheiden, da das Bild keine tatsächliche Tiefe aufweist. Hinton (KI-Forscher) hat die Idee von Capsule Networks vorgeschlagen, mit denen die Dinge intuitiver gehandhabt werden könnten. Unglücklicherweise für Computer sind die Trainingsdaten (normalerweise) 2D-Bilder, Arrays von flachen Pixeln. Um eine Überanpassung zu vermeiden, sind viele Daten erforderlich, damit die Ausrichtung der Autos in den Bildern verallgemeinert wird. Das Babyhirn kann das schon und kann ein Auto in jeder Orientierung erkennen.
quelle