Wenn es sich bei digitalen Werten nur um Schätzungen handelt, warum nicht für AI zu analogen Werten zurückkehren?

18

Der Antrieb für den Übergang vom analogen zum digitalen Schaltkreis im 20. Jahrhundert war der Wunsch nach höherer Genauigkeit und geringerem Rauschen. Jetzt entwickeln wir eine Software, bei der die Ergebnisse ungefähr sind und das Rauschen einen positiven Wert hat.

  • In künstlichen Netzwerken verwenden wir Gradientenmodelle (Jacobian) oder Modelle zweiten Grades (Hessian), um die nächsten Schritte in einem konvergenten Algorithmus abzuschätzen und akzeptable Ungenauigkeiten und Zweifel zu definieren. 1
  • In Konvergenzstrategien fügen wir absichtlich Rauschen hinzu, indem wir zufällige oder pseudozufällige Störungen einspeisen, um die Zuverlässigkeit zu verbessern, indem wir während der Konvergenz im Wesentlichen lokale Minima in der Optimierungsoberfläche herausspringen. 2

Was wir in aktuellen KI-Systemen akzeptieren und bewusst einführen, sind die gleichen Dinge, die die Elektronik zu digitalen Schaltungen geführt haben.

Warum nicht zu analogen Schaltungen für neuronale Netze zurückkehren und diese mit Operationsverstärkermatrizen anstelle von Matrizen digitaler Signalverarbeitungselemente implementieren?

Die Werte der künstlichen Netzwerk-Lernparameter können mithilfe integrierter Kondensatoren, die über D / A-Wandler aufgeladen werden, aufrechterhalten werden, sodass die gelernten Zustände von der digitalen Genauigkeit und Bequemlichkeit profitieren können, während die Vorwärtsausbreitung von analogen Vorteilen profitiert.

  • Höhere Geschwindigkeit 3
  • Größenordnungen weniger Transistoren zur Darstellung von Netzwerkzellen
  • Natürliches thermisches Rauschen 4

Ein akademischer Artikel oder eine Patentrecherche nach analogen künstlichen Netzwerken zeigen, dass in den letzten vierzig Jahren viel Arbeit geleistet wurde, und der Forschungstrend wurde beibehalten. Analoge Rechenschaltungen sind gut entwickelt und bieten eine Basis für neuronale Arrays.

Könnte die derzeitige Besessenheit von digitalen Berechnungen die allgemeine Sichtweise der AI-Architekturoptionen trüben?

Ist Hybrid Analog die überlegene Architektur für künstliche Netzwerke?

 


Fußnoten

[1] Der PAC (wahrscheinlich ungefähr korrekt) bezieht Learning Framework akzeptabler Fehler und akzeptabler Zweifel zum Probenabmessungen , die für Typen für spezifische Modelllernen. (Beachten Sie, dass die Genauigkeit und das Vertrauen in dieses Framework darstellt.)ϵδ1-ϵ1-δ

[2] Der stochastische Gradientenabstieg wird gezeigt, wenn geeignete Strategien und Hyperparameter verwendet werden, um während des Lernens schneller zu konvergieren, und wird in typischen realen Anwendungen künstlicher Netzwerke zu einer bewährten Praxis.

[3] Der Intel Core i9-7960X-Prozessor arbeitet mit einer Turbogeschwindigkeit von 4,2 GHz, wohingegen der Standard-Satellitenrundfunk 41 GHz beträgt.

[4] Thermisches Rauschen kann auf Silizium durch Verstärken und Filtern von Elektronenleckströmen über eine in Sperrrichtung vorgespannte Zenerdiode an ihrem Lawinenpunkt erhalten werden. Die Quelle des Quantenphänomens ist das Johnson-Nyquist-Rauschen. Sanguinetti et. al. In ihrer 'Quantum Random Number Generation on a Mobile Phone' (2014) heißt es: "Ein Detektor kann als verlustbehafteter Kanal mit einer Übertragungswahrscheinlichkeit η modelliert werden, gefolgt von einem Photon-Elektron-Wandler mit Einheitswirkungsgrad ... gemessener Verteilung sei die Kombination aus Quantenunsicherheit und technischem Rauschen ", so CalTechs JTWPA-Arbeit. Beides kann zu Standards für die Erzeugung von wirklich nichtdeterministischem Quantenrauschen in integrierten Schaltkreisen werden.

Verweise

FauChristian
quelle
1
Ich würde behaupten, dass du auf etwas stehst. Es gibt einige Bemühungen, KI in analoge Chips umzuwandeln (ich denke, Apple macht möglicherweise etwas mit dem iPhone). Ich bin mir nicht sicher, wie viel recherchiert wurde, aber ich bin sicher, dass Sie irgendwo ein Whitepaper finden können. Eine Recherche lohnt sich auf jeden Fall. Ich gehe davon aus, dass es bald programmierbare AI-Chips geben wird, die eine festgelegte Anzahl von Ein- und Ausgängen haben (ähnlich wie Busregister).
Zakk Diaz
Es ist keine vollständige Antwort, aber ich vermute, das Hauptproblem sind die Kosten. Druckschaltungen sind im Maßstab super billig und in kleinen Mengen immer noch ziemlich teuer. Diskrete GPUs werden bereits in Serie hergestellt und funktionieren "gut genug". Ein analoger Chip kann normalerweise nur eine Aufgabe gut erledigen, und die bevorzugten Modelle ändern sich schnell. Ein diskreter Chip kann für viele verschiedene Aufgaben programmiert werden. Wenn wir eine "beste" Topologie für ANNs finden, ist es möglicherweise sinnvoll, wieder analoge Chips herzustellen.
John Doucette
1
Beeindruckend. Mein erster Tag auf dieser Seite und ich habe jemanden gefunden, der einen Gedanken mit mir teilt. :-D

Antworten:

6

Ich denke, es gibt verschiedene Gründe. Vor allem: Flexibilität. Mit modernen CPUs und GPUs können Sie so ziemlich jedes KI-Modell konstruieren, das Sie möchten, und das in jeder gewünschten Größe und Komplexität. Wie können Sie sicher sein, dass das von Ihnen verwendete Modell auch in einigen Jahren noch geeignet ist? Vielleicht wird es in den nächsten Jahren einen großen Durchbruch bei den NN geben? Vielleicht finden einige Wissenschaftler, dass es einen besseren Weg gibt, eine KI zu entwickeln, als mit NNs, genetischen Algorithmen usw. Normale Chips können damit umgehen, und sie können damit gut genug umgehen. Wenn Sie es jedoch optimieren möchten und sich keine Sorgen um Geld machen müssen, können Sie eine spezialisierte Architektur entwickeln (dies wird bereits von verschiedenen Unternehmen durchgeführt, wodurch die Geschwindigkeit bei bestimmten Aufgaben erheblich gesteigert wird).

Grund Nummer zwei: Massenproduktion. Ich meine, Unternehmen könnten schließlich hochintegrierte analoge AI-Komponenten herstellen (zum Beispiel NN-Chips). Aber das wäre eine größere Investition. Es ist ziemlich unklar, ob Einheiten, die flexibel genug sind, um eine ernstzunehmende Alternative für KI-Hardware zu sein, leicht in einer Massen-Nanometer-Produktion hergestellt werden können, die mit CPUs und GPUs konkurrieren kann. Vor allem letztere sind für massive Parallelberechnungen stark optimiert. Und wenn Sie sich die Entwicklung von GPU-ähnlichen Architekturen ansehen (die nur wenige, aber sehr gute Funktionen bieten), die zusätzlich für maschinelles Lernen optimiert sind, werden Sie feststellen, dass dies ein harter Wettbewerb für analoge Einheiten wäre.

All dies bedeutet nicht, dass es in diesem Bereich keine Forschung gibt. Es gibt einige Experimente, die versuchen, dies zu erreichen, aber für gängige Architekturen sind sie noch nicht "gefährlich". Irgendwann werden sie in die Zukunft kommen, wenn wir KI und Intelligenz im Allgemeinen besser verstehen und nur versuchen, sie zu optimieren, aber ich bin eher skeptisch.

EDIT: Auch etwas, das irgendwie zur Flexibilität gehört: Sie können besser mit den AI-Algorithmen experimentieren, die auf "normaler" digitaler Hardware ausgeführt werden. Zum Beispiel können Sie einen NN an bestimmten Stellen leicht inspizieren, Sie können die Eingabedaten schnell ändern oder alternative Daten bereitstellen, Sie sind wirklich an nichts gebunden. Und da wir immer noch nicht jedes Modell vollständig kennen oder verstehen, wann es zu verwenden ist, ist es nicht sinnvoll, etwas "junges" und "experimentelles" in ein festes Analogon zu setzen, wenn es bessere Architekturen für eine bestimmte Aufgabe usw. gibt die Architektur.

Ben
quelle
Obwohl die Skaleneffekte (schieres Produktionsvolumen) heutzutage die digitalen begünstigen, geschah dies in den 1980er Jahren nicht und in den 2040er Jahren nicht bei vielen. Analog ist durch Transistor günstiger. Es gibt 128.000 Transistoren in einem CUDA-Kern pro Thread und nur 40 Transistoren in einem Multiplex-Operationsverstärker. Noch wichtiger ist, dass die Frage theoretisch ist - was technisch am sinnvollsten ist - und nicht, was beim gegenwärtigen Stand der VLSI-Ökonomie wirtschaftlich ist. Wenn es ein Muster gibt, das wir in den letzten 100 Jahren in der Technologie sehen können, ist das, dass die Normalität von heute das Museumsstück von morgen ist. - Das Lesen der Kopfgeldanforderungen kann hilfreich sein.
FauChristian
Aber ist das in diesem Szenario nicht ähnlich? Die Hardware JETZT massiv weiterzuentwickeln, wäre nicht wirtschaftlich, aber auch nicht technologisch sinnvoll. Wir wissen einfach nicht genug.
Ben
Wenn "wir" die AI Stack Exchange-Mitgliedschaft ist, besteht eine starke Tendenz dahingehend, was bereits in beliebten Python-Bibliotheken implementiert wurde. Aber Regierungen und große Unternehmen scheinen auch an Spiking-Netzwerken und analogem VLSI interessiert zu sein, beispielsweise USAF und Intel. Von Robotiklabors gibt es einen Trend zu analogen und neurokogitiven Forschern zufolge sind ANNs der mittleren N nicht würdig. Reale Neuronen sind tausendfach komplexer als eine ReLU-Funktion. Was für welche Anwendung als dominant hervorgeht, ist unklar, aber das ist nicht dasselbe, als nicht genug zu wissen, um Optionen zu diskutieren.
FauChristian
Möglicherweise haben Sie das Wort "pure" in die Frage eingelesen. Keine der laufenden Untersuchungen legt nahe, dass es sich um reine Analoge handelt, bei denen anstelle von LCDs Tastaturen und CRTs verwendet werden. Alle jüngsten Vorschläge in der Literatur und in der aktiven VLSI-Entwicklung folgen einem gut verstandenen Paradigma: Simulieren Sie programmierbare (nicht festgelegte) Analogsignale, die das Programm so lernen können, wie digitale künstliche Netzwerke es können, und verwirklichen Sie sie dann in Silizium, ohne die Programmierbarkeit oder Lernfähigkeit zu beeinträchtigen. Die Echtzeitsignale können analog, digital oder beides sein, aber die Gesamtsteuerung des Chips ist digital, wie bei einer GPU oder einem DSP.
FauChristian
Die Kopfgeldperiode wird bald enden, und ob analoges Lernen sinnvoll ist, weil es leicht verfügbares Quantenrauschen nutzen kann, wird in dieser Antwort noch nicht angesprochen. Vorhersage wurde durch die Frage nicht angezeigt. Darüber hinaus dürfte das enorme Budget, das offenbar auf die analoge Berechnung von Perzeptronen, Faltung und Spiking-Netzwerken abzielt, durchaus Bestand haben, aber nur, wenn die langfristige Rentabilität vernünftig ist. Also die Frage.
FauChristian
6

Schnelle Antwort

Als Intel Nirvana erwarb, zeigten sie ihre Überzeugung, dass analoges VLSI seinen Platz in den neuromorphen Chips der nahen Zukunft hat 1, 2, 3 .

Ob es daran lag, das natürliche Quantenrauschen in analogen Schaltkreisen leichter auszunutzen, ist noch nicht öffentlich. Dies liegt eher an der Anzahl und Komplexität der parallelen Aktivierungsfunktionen, die in einen einzelnen VLSI-Chip gepackt werden können. Analog hat in dieser Hinsicht einen Vorteil von Größenordnungen gegenüber Digital.

Es ist wahrscheinlich für AI Stack Exchange-Mitglieder von Vorteil, sich über diese stark angedeutete technologische Entwicklung zu informieren.

Wichtige Trends und Nicht-Trends in der KI

Um sich dieser Frage wissenschaftlich zu nähern, ist es am besten, analoge und digitale Signaltheorie ohne die Tendenz von Trends gegenüberzustellen.

Enthusiasten der künstlichen Intelligenz können im Internet viel über Deep Learning, Feature-Extraktion, Bilderkennung und die Software-Bibliotheken erfahren, die sie herunterladen und sofort mit dem Experimentieren beginnen können. Auf diese Weise werden die meisten mit der Technologie nass, aber die schnelle Einführung in die KI hat auch ihre Schattenseiten.

Wenn die theoretischen Grundlagen eines frühen erfolgreichen Einsatzes verbraucherorientierter KI nicht verstanden werden, bilden sich Annahmen, die mit diesen Grundlagen in Konflikt stehen. Wichtige Optionen wie analoge künstliche Neuronen, Netzwerke mit Stacheln und Echtzeit-Feedback werden übersehen. Die Verbesserung von Formularen, Funktionen und Zuverlässigkeit wird beeinträchtigt.

Die Begeisterung für die technologische Entwicklung sollte immer mit mindestens gleichem Maß an rationalem Denken gemildert werden.

Konvergenz und Stabilität

In einem System, in dem Genauigkeit und Stabilität durch Rückkopplung erreicht werden, sind sowohl analoge als auch digitale Signalwerte immer nur Schätzungen.

  • Digitale Werte in einem Konvergenzalgorithmus oder genauer gesagt einer Strategie zur Konvergenz
  • Analoge Signalwerte in einer stabilen Operationsverstärkerschaltung

Das Verständnis der Parallele zwischen Konvergenz durch Fehlerkorrektur in einem digitalen Algorithmus und Stabilität, die durch Rückkopplung in analogen Instrumenten erreicht wird, ist wichtig, um über diese Frage nachzudenken. Dies sind die Parallelen im zeitgenössischen Jargon, mit digital links und analog rechts.

┌───────────────────────────────┬───────────────── ─────────────┐
│ * Digitale Kunstnetze * │ * Analoge Kunstnetze * │
├───────────────────────────────┼───────────────── ─────────────┤
│ Vorwärtsausbreitung │ Primärsignalpfad │
├───────────────────────────────┼───────────────── ─────────────┤
│ Fehlerfunktion │ Fehlerfunktion │
├───────────────────────────────┼───────────────── ─────────────┤
│ Konvergent │ Stabil │
├───────────────────────────────┼───────────────── ─────────────┤
│ Sättigung des Gradienten │ Sättigung an Eingängen │
├───────────────────────────────┼───────────────── ─────────────┤
│ Aktivierungsfunktion │ Weiterleitungsfunktion │
└───────────────────────────────┴───────────────── ─────────────┘

Popularität von digitalen Schaltungen

Der Hauptfaktor für den Anstieg der Popularität digitaler Schaltungen ist die Eindämmung von Rauschen. Heutige VLSI-Digitalschaltungen weisen lange mittlere Ausfallzeiten auf (mittlere Zeit zwischen Instanzen, in denen ein falscher Bitwert auftritt).

Die virtuelle Beseitigung von Rauschen verschaffte der digitalen Schaltung einen signifikanten Vorteil gegenüber der analogen Schaltung für Messung, PID-Regelung, Berechnung und andere Anwendungen. Mit digitalen Schaltkreisen konnte man auf fünf Dezimalstellen genau messen, mit bemerkenswerter Genauigkeit steuern und π auf tausend Dezimalstellen genau berechnen, wiederholbar und zuverlässig.

Es waren in erster Linie die Budgets für Luftfahrt, Verteidigung, Ballistik und Gegenmaßnahmen, die die Produktionsnachfrage steigerten, um die Skaleneffekte bei der Herstellung digitaler Schaltungen zu erreichen. Die Nachfrage nach Bildschirmauflösung und Rendering-Geschwindigkeit treibt die GPU-Nutzung als digitaler Signalprozessor jetzt voran.

Verursachen diese weitgehend wirtschaftlichen Kräfte die besten Gestaltungsentscheidungen? Sind digital basierte künstliche Netzwerke die beste Nutzung wertvoller VLSI-Immobilien? Das ist die Herausforderung dieser Frage, und es ist eine gute.

Realitäten der IC-Komplexität

Wie in einem Kommentar erwähnt, sind Zehntausende von Transistoren erforderlich, um ein unabhängiges, wiederverwendbares künstliches Netzwerkneuron in Silizium zu implementieren. Dies liegt hauptsächlich an der Vektor-Matrix-Multiplikation, die in jede Aktivierungsschicht führt. Es sind nur ein paar Dutzend Transistoren pro künstlichem Neuron erforderlich, um eine Vektor-Matrix-Multiplikation und das Array der Operationsverstärker der Schicht zu implementieren. Operationsverstärker können so ausgelegt werden, dass sie Funktionen wie Binärschritt, Sigmoid, Soft Plus, ELU und ISRLU ausführen.

Digitales Signalrauschen durch Rundung

Die digitale Signalübertragung ist nicht rauschfrei, da die meisten digitalen Signale gerundet und daher approximiert sind. Die Sättigung des Signals bei der Rückausbreitung erscheint zuerst als das digitale Rauschen, das aus dieser Näherung erzeugt wird. Eine weitere Sättigung tritt auf, wenn das Signal immer auf dieselbe Binärdarstellung gerundet wird.

veknN

v=n=0N1n2k+e+N-n

Programmierer stoßen manchmal auf die Auswirkungen der Rundung von IEEE-Gleitkommazahlen mit doppelter oder einfacher Genauigkeit, wenn Antworten mit einem erwarteten Wert von 0,2 als 0,20000000000001 angezeigt werden. Ein Fünftel kann nicht exakt als Binärzahl dargestellt werden, da 5 kein Faktor 2 ist.

Wissenschaft über Medienrummel und beliebte Trends

E=mc2

Beim maschinellen Lernen gibt es, wie bei vielen Technologieprodukten, vier wichtige Qualitätsmetriken.

  • Effizienz (die Geschwindigkeit und Wirtschaftlichkeit der Nutzung fördert)
  • Verlässlichkeit
  • Richtigkeit
  • Verständlichkeit (die die Wartbarkeit fördert)

Manchmal, aber nicht immer, beeinträchtigt das Erreichen eines anderen das Gleichgewicht. In diesem Fall muss ein Gleichgewicht hergestellt werden. Gradient Descent ist eine Konvergenzstrategie, die mit einem digitalen Algorithmus realisiert werden kann, der diese vier Faktoren gut ausbalanciert. Deshalb ist sie die dominierende Strategie beim mehrschichtigen Perzeptrontraining und in vielen tiefen Netzwerken.

Diese vier Dinge standen im Mittelpunkt der frühen Kybernetikarbeit von Norbert Wiener vor den ersten digitalen Schaltungen in Bell Labs oder dem ersten mit Vakuumröhren realisierten Flip-Flop. Der Begriff Kybernetik leitet sich aus dem Griechischen κυβερνήτης (ausgesprochen kyvernítis ) ab und bedeutet Steuermann, bei dem das Ruder und die Segel ständig wechselnden Wind und Strömung ausgleichen mussten und das Schiff auf dem vorgesehenen Hafen zusammenlaufen musste.

Der trendgetriebene Blick auf diese Frage könnte die Idee umfassen, ob VLSI zur Erzielung von Skaleneffekten für analoge Netze eingesetzt werden kann, aber die vom Autor angegebenen Kriterien bestehen darin, trendgetriebene Ansichten zu vermeiden. Selbst wenn dies nicht der Fall wäre, werden, wie oben erwähnt, erheblich weniger Transistoren benötigt, um künstliche Netzwerkschichten mit einer analogen Schaltung als mit einer digitalen zu erzeugen. Aus diesem Grund ist es legitim, die Frage zu beantworten, wenn man davon ausgeht, dass VLSI-Analog zu vernünftigen Kosten sehr gut realisierbar ist, wenn die Aufmerksamkeit darauf gerichtet ist, dies zu erreichen.

Analoges künstliches Netzwerkdesign

Analoge künstliche Netze werden auf der ganzen Welt untersucht, darunter das Joint Venture IBM / MIT, Intels Nirvana, Google, die US Air Force bereits 1992 5 , Tesla und viele andere, von denen einige in den Kommentaren und im Nachtrag dazu angegeben sind Frage.

Das Interesse an Analog für künstliche Netzwerke hängt mit der Anzahl der parallelen Aktivierungsfunktionen zusammen, die beim Lernen auf einen Quadratmillimeter VLSI-Chip-Grundfläche passen können. Das hängt wesentlich davon ab, wie viele Transistoren benötigt werden. Die Dämpfungsmatrizen (die Lernparameter-Matrizen) 4 erfordern eine Vektor-Matrix-Multiplikation, die eine große Anzahl von Transistoren und somit einen signifikanten Teil von VLSI-Immobilien erfordert.

In einem mehrschichtigen Perceptron-Basisnetzwerk müssen fünf unabhängige Funktionskomponenten vorhanden sein, damit es für ein vollständig paralleles Training zur Verfügung steht.

  1. Die Vektor-Matrix-Multiplikation, die die Amplitude der Vorwärtsausbreitung zwischen den Aktivierungsfunktionen jeder Schicht parametrisiert
  2. Die Beibehaltung von Parametern
  3. Die Aktivierungsfunktionen für jede Ebene
  4. Die Beibehaltung der Ausgaben der Aktivierungsschicht gilt für die Rückübertragung
  5. Die Ableitung der Aktivierungsfunktionen für jede Schicht

In analogen Schaltungen sind 2 und 4 aufgrund der größeren Parallelität, die der Signalübertragungsmethode inhärent ist, möglicherweise nicht erforderlich. Die Rückkopplungstheorie und die Oberschwingungsanalyse werden mit einem Simulator wie Spice auf das Schaltungsdesign angewendet.

cpc(r)r(t,c)tichichwich τpτeinτd

c=cpc(r(t,c)dt)(ich=0ich-2(τpwichwich-1+τeinwich+τdwich)+τeinwich-1+τdwich-1)

Für übliche Werte dieser Schaltungen in aktuellen analogen integrierten Schaltungen fallen Kosten für analoge VLSI-Chips an, die im Laufe der Zeit auf einen Wert konvergieren, der mindestens drei Größenordnungen unter dem von digitalen Chips mit äquivalenter Trainingsparallelität liegt.

Lärminjektion direkt ansprechen

In der Frage heißt es: "Wir verwenden Gradientenmodelle (Jacobian) oder Modelle zweiten Grades (Hessian), um die nächsten Schritte in einem konvergenten Algorithmus abzuschätzen, und fügen absichtlich Rauschen hinzu [oder] fügen Pseudozufallsstörungen hinzu, um die Konvergenzzuverlässigkeit zu verbessern, indem lokale Fehlerquellen herausgesprungen werden Oberfläche während der Konvergenz. "

Der Grund, warum Pseudozufallsrauschen während des Trainings und in in Echtzeit wiedereintretenden Netzwerken (wie Verstärkungsnetzwerken) in den Konvergenzalgorithmus eingespeist wird, ist das Vorhandensein lokaler Minima in der Disparitäts- (Fehler-) Oberfläche, die nicht die globalen Minima davon sind Oberfläche. Das globale Minimum ist der optimal trainierte Zustand des künstlichen Netzwerks. Lokale Minima können weit vom Optimum entfernt sein.

Diese Oberfläche zeigt die Fehlerfunktion von Parametern (zwei in diesem stark vereinfachten Fall 6 ) und die Frage nach einem lokalen Minimum, das die Existenz des globalen Minimums verbirgt. Die Tiefpunkte in der Oberfläche stellen Minima an den kritischen Punkten lokaler Regionen optimaler Trainingskonvergenz dar. 7,8

Fehleroberfläche zeigt, wie das globale Optimum verfehlt werden kann

Fehlerfunktionen sind lediglich ein Maß für die Disparität zwischen dem aktuellen Netzwerkstatus während des Trainings und dem gewünschten Netzwerkstatus. Ziel beim Training künstlicher Netzwerke ist es, das globale Minimum dieser Disparität zu finden. Eine solche Oberfläche existiert unabhängig davon, ob die Probendaten markiert oder unmarkiert sind und ob das Trainingsabschlusskriterium innerhalb oder außerhalb des künstlichen Netzwerks liegt.

Wenn die Lernrate klein ist und sich der Anfangszustand am Ursprung des Parameterraums befindet, konvergiert die Konvergenz unter Verwendung des Gradientenabfalls ganz links, was ein lokales Minimum ist, nicht das globale Minimum rechts.

Selbst wenn die Experten, die das künstliche Netzwerk für das Lernen initialisieren, klug genug sind, um den Mittelpunkt zwischen den beiden Minima zu bestimmen, steigt der Gradient an diesem Punkt immer noch zum linken Minimum hin an, und die Konvergenz erreicht einen nicht optimalen Trainingszustand. Wenn die Optimalität des Trainings kritisch ist, was häufig der Fall ist, kann das Training keine Ergebnisse in Produktionsqualität erzielen.

Eine verwendete Lösung besteht darin, dem Konvergenzprozess Entropie hinzuzufügen, was häufig einfach das Einspeisen der gedämpften Ausgabe eines Pseudozufallszahlengenerators ist. Eine andere weniger häufig verwendete Lösung besteht darin, den Trainingsprozess zu verzweigen und die Injektion einer großen Menge Entropie in einem zweiten konvergenten Prozess zu versuchen, so dass eine konservative Suche und eine etwas wilde Suche parallel ablaufen.

Es ist wahr, dass Quantenrauschen in extrem kleinen analogen Schaltungen eine größere Gleichförmigkeit des Signalspektrums von seiner Entropie her aufweist als ein digitaler Pseudozufallsgenerator, und dass viel weniger Transistoren erforderlich sind, um das Rauschen mit höherer Qualität zu erzielen. Ob die Herausforderungen bei der Implementierung von VLSI überwunden sind, müssen die in Regierungen und Unternehmen eingebetteten Forschungslabors erst noch offenlegen.

  • Werden solche stochastischen Elemente, die verwendet werden, um gemessene Zufallsmengen zu injizieren, um die Trainingsgeschwindigkeit und -zuverlässigkeit zu verbessern, während des Trainings ausreichend immun gegen externe Geräusche sein?
  • Werden sie gegen internes Übersprechen ausreichend abgeschirmt sein?
  • Wird es eine Nachfrage geben, die die Kosten der VLSI-Herstellung so weit senkt, dass ein größerer Nutzen außerhalb hochfinanzierter Forschungsunternehmen erzielt wird?

Alle drei Herausforderungen sind plausibel. Sicher und auch sehr interessant ist, wie Designer und Hersteller die digitale Steuerung der analogen Signalwege und Aktivierungsfunktionen ermöglichen, um ein Hochgeschwindigkeitstraining zu erreichen.

Fußnoten

[1] https://ieeexplore.ieee.org/abstract/document/8401400/

[2] https://spectrum.ieee.org/automaton/robotics/artificial-intelligence/analog-and-neuromorphic-chips-will-robotic-age

[3] https://www.roboticstomorrow.com/article/2018/04/was ist der Unterschied zwischen analogen und neuromorphen Chips in Robotern ?

[4] Dämpfung bezieht sich auf die Multiplikation eines Signals, das von einer Betätigung ausgegeben wird, mit einem trainierbaren Parameter, um ein Addend bereitzustellen, das mit anderen für die Eingabe zu einer Aktivierung einer nachfolgenden Schicht summiert werden soll. Obwohl dies ein physikalischer Begriff ist, wird er in der Elektrotechnik häufig verwendet und ist der geeignete Begriff, um die Funktion der Vektor-Matrix-Multiplikation zu beschreiben, mit der in weniger gut ausgebildeten Kreisen eine Gewichtung der Schichteingaben erreicht wird.

[5] http://www.dtic.mil/dtic/tr/fulltext/u2/a256621.pdf

[6] In künstlichen Netzwerken gibt es viel mehr als zwei Parameter. In dieser Abbildung sind jedoch nur zwei dargestellt, da die Darstellung nur in 3D nachvollziehbar ist und wir eine der drei Dimensionen für den Wert der Fehlerfunktion benötigen.

z=(x-2)2+(y-2)2+60-401+(y-1.1)2+(x-0.9)2-40(1+((y-2.2)2+(x-3.1)2)4)

[8] Zugehörige Gnuplot-Befehle:

set title "Error Surface Showing How Global Optimum Can be Missed"
set xlabel "x"
set ylabel "y"
set pm3d at b
set ticslevel 0.8
set isosample 40,40
set xrange [0:4]
set yrange [0:4]
set nokey
splot (x-2)**2 + (y-2)**2 + 60 \
    - 40 / sqrt(1+(y-1.1)**2+(x-0.9)**2) \
    - 40 / (1+(y-2.2)**2+(x-3.1)**2)**4
Douglas Daseeco
quelle
4

Digitale Instrumentierung der Analogzellen

Eine der Hauptherausforderungen in analogen künstlichen Netzwerken ist, dass die Netzwerkinstrumentierung am praktischsten wäre, wenn sie digital wäre. Jede VLSI-Implementierung von analogen Perzeptronen, Faltungen oder Spikernetzen benötigt wahrscheinlich digitale Komponenten in einer Hybridanordnung für mehrere Funktionen.

  • Gesundheitsindikatoren
  • Störungsanzeigen
  • Archivieren und Abrufen der gelernten Parameter 1
  • Gesamtsystemsteuerung
  • Einstellen von Hyperparametern
  • Betriebsstatistik
  • Introspektion für Entwicklung und Debugging
  • Haltepunkte
  • Überprüfbarkeit

Dies bedeutet, dass die Realisierung eines analogen künstlichen Allzweck-Lernnetzwerks eine A-zu-D- und eine D-zu-A-Umwandlung erfordert. 2 Die Herausforderung beim VLSI-Design besteht darin, den Aufbau von Transistoren durch die Einführung einer großen Anzahl von Umwandlungsblöcken zu vermeiden. Dies würde den Dichtevorteil der analogen Realisierung der Vorwärts- und Rückwärtsausbreitung zunichte machen.

Die wahrscheinliche Lösung besteht darin, eine Latch-Matrix zu verwenden, um Signale von den D / A-Wandlern auf Kondensatoren zu verteilen, und die Schaltmatrix mit niedrigem Leckstrom auszuwählen, welcher Wert von den A / D-Wandlern gelesen wird. Dies muss erfolgen, ohne digitale Störungen in die analogen Pfade einzuführen und ohne die gespeicherten Ladungen zu verschlechtern oder ihre Genauigkeit zu beeinträchtigen.

Wie bedeutend die Anzahl zusätzlicher Transistoren und Routen in einem Ausgang des primären Netzwerkkreises sein würde, kann nur durch Ausführen eines VLSI-Entwurfsprozesses festgestellt werden.

Wichtige Open Source Beiträge

Die University of Massachusetts eingeführt , um das Open - Source - Repository BindsNet 3,4 im Februar 2018. Es analoge Spicken Netzwerke mit digitaler Software und Hardware und nutzt die GPU - Beschleunigung durch PyTorch simuliert.

Dies erleichtert das heutige Experimentieren mit Spitzennetzwerkdesigns und -strategien. Erfolgreiche Simulationen würden wahrscheinlich zu einem überlegenen VLSI-Design führen, wenn sie signifikant genug sind.


Fußnoten

[1] In jedem praktischen Lernsystem müssen gelernte Parameter aus der VLSI-Implementierung extrahiert, in einer Datenbank gespeichert und einer beliebigen Anzahl von Entwicklungs-, Test-, UAT- oder Produktionssystemen zur Bereitstellung, Fehlerursachenanalyse, Skalierung und zur Verfügung gestellt werden Notfallwiederherstellung. Das Speichern und Laden muss ein grundlegendes Merkmal von analogen VLSI-Hybrid-Kunstnetzen sein, auch zwischen den Epochen während des Trainings und während des tatsächlichen Feldeinsatzes.

[2] Man kann den gelernten Zustand eines künstlichen Netzwerks in Kondensatoren nicht auf unbestimmte Zeit halten. Obwohl Kondensatoren die dominierende passive Komponente für analoge Schaltungen geworden sind, die in Standard-CMOS-Prozessen entworfen wurden, können sie nicht viel Kapazität haben und der Verlust ist nicht Null. Die Halbwertszeit der kapazitiven Speicherschaltungen und die erforderliche Genauigkeit der Parameterwerte bestimmen die Rate eines Lese- und bedingten Aktualisierungszyklus.

[3] Open Source-Repository von BindsNet

[4] BindsNET [paper]: Eine maschinell lernorientierte Spiking-Bibliothek für neuronale Netze in Python für die Harvard-U-Veröffentlichung des Abstracts aus dem BindsNet-Paper.

FauChristian
quelle
4

Ich bin überrascht, dass niemand einige der spezifischen Forschungsrichtungen auf dem Gebiet der analogen KI erwähnt hat. Künstliche Intelligenz zu klären ist nicht genau dasselbe wie maschinelles Lernen, wie diese Antwort nahelegt. Die jüngsten Fortschritte bei der analogen Berechnung betrafen ausschließlich das maschinelle Lernen.

Analoges CMOS:

Lassen Sie uns zunächst über die frühesten analogen Implementierungen von Neuronen sprechen. Dr. Giacomo Indiveri et al. Waren nur wenige der Pioniere auf diesem Gebiet. Obwohl Sie mit CMOS-Logik spitze neuronale Netze mit STDP (Spike Time Dependent Plasticity) entwerfen können , ist es schwierig, sie in Algorithmen für maschinelles Lernen zu verwenden. Das menschliche Gehirn muss noch vollständig verstanden werden, insbesondere, wie es komplexe Informationen mit Spikes kommuniziert. Die auf Spikes basierenden Netzwerke eignen sich gut für die Ausführung von relativ kleinen Bilderkennungs- und Aufgaben mit geringer Komplexität (die meisten Artikel scheinen sich mehr um die Verbesserung der Leistung zu kümmern als um hochkomplexe Aufgaben). Aufgrund der Vielzahl der verfügbaren Transistoren können wir sie möglicherweise für komplexe Aufgaben verwenden.

Das beste Beispiel wäre, dass Google diese Idee der geringen Präzision bei TPUs und der Kompensation der Präzision verwendet, indem eine große Anzahl von Verarbeitungseinheiten verwendet wird, was zu einem Kompromiss zwischen Zeit, Präzision und Fläche führt. Dies kann analog zu einer großen Anzahl von Transistoren in einem Prozessor sein, wenn auch mit geringer Genauigkeit. ( Ein genauer Blick auf Googles erste Tensor Processing Unit (TPU) )

ANMERKUNG: Einige argumentieren möglicherweise, dass die CMOS-Technologie unter die digitale Domäne fällt, aber da wir hier nicht speziell CMOS verwenden, um eine digitale Operation auszuführen, würde ich sie gerne als analog betrachten.

Spike-basierte Aufgaben sind anscheinend recht gut für Winner Take All-Netzwerke (ähnlich wie selbstorganisierende Karten ), daher ist dies die allgemeine Methode zum Implementieren von Algorithmen für maschinelles Lernen in VLSI-Chips.

Spike-basierte Netzwerke haben keinen idealen Speicher, Sie können keine hochpräzisen Gewichte haben. Sie haben vorgeschlagen, biologische Gewichte oder Synapsen oder Speicher unter Verwendung von Kondensatoren zu implementieren, aber anscheinend sieht es sich ähnlichen Problemen wie bei normalen Siliziumchips gegenüber, z. wie -1, 0, 1).

Digitale Berechnung:

Hier kommt die digitale Berechnung. Aufgaben, die ein hohes Maß an Gleitkommadarstellung erfordern, können nicht einfach durch Spikes implementiert werden, da wir die biophysikalischen oder sonstigen Aspekte eines echten Neurons noch nicht vollständig nachahmen können. Digitale Berechnungen helfen einfach dabei, mehr Informationen so präzise zu übermitteln, wie wir möchten (wenn wir eine solche CPU entwerfen). Auch wenn Engpässe ein bekannter Nachteil der Von Neumann-Architektur für digitale Berechnungen sind, ist dies kein so großes Problem wie die Darstellung von Informationen über Spikes. Spikes haben immer eine feste Größe. Die einzige Art und Weise, wie sie Informationen vermitteln, ist wahrscheinlich die Häufigkeit und das Vorzeichen (erregend oder hemmend). Auch die Taktraten sind in modernen Computern ziemlich hoch.

Memristoren: Eine neue Richtung

Hier kommt die neueste Erfindung, der Memristor . Dies war bei weitem das vielversprechendste analoge Gerät im maschinellen Lernen. Memristoren sind ein sehr neues Konzept, das in den 70er Jahren vorhergesagt und erst 2008 hergestellt wurde. Grundsätzlich handelt es sich um RRAMs oder Resisitive RAMs. Hierbei steht der Widerstand des Speicherwiderstands oder Memristors in direktem Zusammenhang mit der vergangenen aktuellen Geschichte, die den biophysikalischen Modellen von Neuronen sehr ähnlich ist. Sie können auch einfach mit Crossbar-Arrays (im Grunde genommen Matrix aus elektrischen Kontakten) von Memristoren trainiert werden (Crossbar-Arrays stellen Gewichtsmatrizen dar, wobei die an Zeilen oder Spalten angelegte Spannung die Vorwärts- oder Rückwärtsausbreitung bestimmt).

Somit verleiht Memristor den Algorithmen für maschinelles Lernen eine echte analoge Note. Leider gibt es aufgrund der jüngsten Ankunft eine Reihe von Problemen, die noch gelöst werden müssen.

  • Memristoren können sich sehr schnell zersetzen, dh sie haben begrenzte Trainingszyklen.
  • Memristoren verursachen eine Menge Rauschen, was anscheinend nicht zur Regularisierung beiträgt, wie ein ML-Ingenieur vielleicht meint.
  • TichÖ2HfÖ2

Forschungslabor für Nanoelektronik, Purdue University

Elektrochemische Materialien, ETH Zürich

Human Brain Project

Das MARCS Institut für Gehirn, Verhalten und Entwicklung

Neuromorphe Photonik:

In letzter Zeit gab es ein Interesse auf dem Gebiet der neuromorphen Photonik. Hier ist ein kurzer Artikel darüber. Ich kenne die internen Abläufe derselben nicht, aber bei AFAIK geht es um die Übertragung von Informationen in optischer Form innerhalb des Verarbeitungs-Chips selbst. Dies führt zu einigen Vorteilen gegenüber normalen analogen oder digitalen Schaltungen:

  • Schnellere Informationsverarbeitung.
  • Höhere Informationsdichte.
  • Bessere Datentreue durch weniger Verluste.
DuttaA
quelle
Randbemerkung: Einige meiner Beobachtungen basieren auf Fakten, während andere nur aus dem Gedächtnis stammen. Daher liege ich möglicherweise falsch (da ich ein Anfänger auf diesem Gebiet bin). Fühlen Sie sich frei, auf Fehler hinzuweisen.
DuttaA
2

Ich glaube, dass die meisten Leute die Frage fleißig und wirklich informativ beantwortet haben. Ich möchte nur sagen, dass wir häufig digitale Schaltungen verwenden, da dies die vorhandene Technologie ist und auf jeden Fall analoge Schaltungen vielversprechend erscheinen.

Gegenwärtig ist diese Idee jedoch trotz des Forschungsaufwands der letzten Jahre nicht sehr gut entwickelt. Bisher hat kein Unternehmen versucht, die Idee auf kommerzieller Ebene umzusetzen, indem es solche Chips für den Einsatz außerhalb seiner Labore herstellt.

Außerdem fühlt sich diese Idee wie ein neuer Ansatz an und hat ein großes Potenzial.

Da wir jedoch nicht genau wissen, wie einige Modelle funktionieren, ist es für manche einfach kein Problem. Wie neuronale Netze solch komplexe Probleme und viele andere Dinge wirklich lösen. Daher ist es noch eine ziemlich weit entfernte Technologie, ihr volles Potenzial auszuschöpfen.

PS Ich bin noch ein Anfänger auf diesem Gebiet und denke, dass meine Meinung nicht zählt. Wenn ich irgendwo überflüssig war oder Ihnen die erwartete Antwort nicht gegeben habe, bedaure ich es aufrichtig.

user79161
quelle
Diese Antwort zeigt Gedanken. Es stimmt auch, dass die vorhandene Technologie mit programmierbarem analogen VLSI nicht so weit fortgeschritten ist wie mit digitalem. ... Was nicht bekannt ist, ist das Ergebnis der Forschung und Entwicklung von US Navy- und DARPA-Analogsteuerungen, das seit Jahrzehnten reichlich finanziert wird. Nur erste Dokumente wurden freigegeben. ICBM- und Gegenmaßnahmen-Technologie können alle analoge Nachrichtenkreise im 100-GHz-Bereich sein. Oder nicht. ... Dein Schreiben war weder überflüssig noch naiv. Sicherlich sind diese Technologien in Open Source gerade erst zu sehen. Gute Antwort. Lassen Sie es wie es ist oder entwickeln Sie es weiter.
FauChristian
2

Man kann sich der Frage auch unter dem Aspekt der Informationstheorie nähern:

Es stehen zwei Kompromisse zur Auswahl:

Analoge Informationen, die Informationen präziser / spezifischer darstellen können, aber in begrenzter Menge vorliegen.

Digitale Informationen, die die reale Welt nicht vollständig abbilden, jedoch innerhalb weniger Bits eine unbegrenzte Menge an Informationen enthalten können. Ein gutes Beispiel könnte so etwas wie eine inkrementelle for-Schleife sein:

i = 0
while True:
   print(i)
   i += 1

Welches ist dann mächtiger?

Aleksei Maide
quelle
Das ist im Allgemeinen richtig. Überlegen Sie, was das für das Lernen im Kontext der KI bedeutet. Wir haben verschiedene Arten des Lernens in Maschinen über Regelsysteme mit Metaregeln, künstlichen Netzwerken, Erweiterungen der Markov-Kette, Fuzzy-Logik und einer Vielzahl anderer Techniken und Architekturen simuliert. Wenn Lernen stattfindet, gibt es eine Art optimales Verhalten, das das Lernen zu erlernen versucht. Wie können analoge oder digitale Systeme zu diesem optimalen Verhalten konvergieren oder es verfolgen (in Echtzeit) und was hat einen langfristigen Vorteil?
FauChristian
1

Hava Siegelmann

Auf den ersten Blick ist das analoge Rechnen dem digitalen überlegen. Quantencomputer sind schneller als Von-Neumann-Computer und neuromorphe Chips benötigen weniger Energie als Intel-CPUs. Auch aus theoretischer Sicht sprechen viele für analoge Computer. Hava Siegelmann hat die Super-Turing-Fähigkeit von neuronalen Netzen untersucht, dh ein analoger Computer kann einen digitalen emulieren, nicht jedoch umgekehrt. Warum sollten wir also kein analoges Computing verwenden?

Stephen Wolfram

Der Grund hat mit dem Bildungssystem zu tun. Klassische Mathematik, die an Schulen unterrichtet wird, ist analoge Mathematik. Es basiert auf Rechenschiebern, Logarithmentabellen und dem Denken in Schaltkreisen. Im Gegensatz dazu ist das Denken in diskreten Werten eines Algorithmus und das Beschreiben der Welt in Null und Eins grundlegend anders und führt uns zu einer neuen Art von Mathematik. Stephen Wolfram hat erklärt, dass das Verständnis von Zellularautomaten ein wichtiger Schritt ist, um das Universum zu beschreiben, und er hat Recht. Analoge Mathematik zu ignorieren und fähige Computersprachen zu bevorzugen, ist eine leistungsfähige Methode im Unterricht. Es hilft nicht nur, sich mit Computern vertraut zu machen, sondern auch mit allen anderen Dingen wie Medizin, Literatur und Wirtschaft. Auch wenn analoge Maschinen technisch überlegen sind, sollten wir langsame, aber diskrete Turing-Maschinen bevorzugen.

Mathematik unterrichten

Um den Unterschied zwischen digitaler und analoger Berechnung zu verstehen, müssen wir uns auf die Mathematik konzentrieren, die in Schulen verwendet wird. Wenn die Idee besteht, analoge Berechnungen voranzutreiben, wird die entsprechende Art der Mathematik nach elektrischen Feldern, Integration und Differenzierung gruppiert. In den Schulen wird dies unter dem Oberbegriff „Mathematische Analyse“ gelehrt. Dieses Thema war in der Vergangenheit sehr wichtig, da Analysen helfen, Brücken, Maschinen und Autos zu bauen. In all diesen Bereichen wird Vektoralgebra zur Beschreibung des geometrischen Raums verwendet.

Wenn analoge Berechnungen so leistungsfähig sind, warum braucht dann jemand digitale Mathematik? Es hat mit Algorithmus zu tun. Was Planimeter und Differentialanalysator nicht zu bieten haben, sind Programmiermöglichkeiten. Algorithmen und künstliche Sprachen können nicht definiert werden. Ein Blick in die Geschichte der Mathematik zeigt, dass die Algorithmus-Theorie in der Vergangenheit nicht sehr verbreitet war. In der modernen Mathematik wird es unter dem Begriff Lambda-Kalkül und Halting-Problem diskutiert .

Das Lustige ist, dass Lamda-Kalkül auf den ersten Blick keine praktischen Anwendungen hat. Es wird nicht benötigt, wenn jemand die Fläche einer Brücke berechnen möchte. Die Algorithmentheorie ist eine Denkschule zur Verbesserung des kritischen Denkens. Es ist eine Philosophie, die der Mensch braucht, nicht die Maschine.

Manuel Rodriguez
quelle
Schön, dass Sie Seigelmann erwähnt haben. Der zweite Absatz ist logisch schwer zu befolgen. Sicherlich spielt Bildung eine zentrale Rolle in dieser Frage, und DNA-Sequenzierung und digitale Bildgebung haben die Medizin definitiv verbessert. Können Sie erläutern, wie sich die Literatur verbessert hat? Einige würden argumentieren, dass digitales Computing die Volatilität der Wirtschaft verschlechtert hat, aber zentraler für die Bounty-Anforderungen, weshalb jemand langsame Diskretion der schnellen kontinuierlichen vorziehen würde, folgt nicht aus Wolframs Aussage. Es gibt auch keinen Hinweis auf die Aussage. Können Sie eine Referenz angeben und die fehlende Logik angeben?
FauChristian