Der Antrieb für den Übergang vom analogen zum digitalen Schaltkreis im 20. Jahrhundert war der Wunsch nach höherer Genauigkeit und geringerem Rauschen. Jetzt entwickeln wir eine Software, bei der die Ergebnisse ungefähr sind und das Rauschen einen positiven Wert hat.
- In künstlichen Netzwerken verwenden wir Gradientenmodelle (Jacobian) oder Modelle zweiten Grades (Hessian), um die nächsten Schritte in einem konvergenten Algorithmus abzuschätzen und akzeptable Ungenauigkeiten und Zweifel zu definieren. 1
- In Konvergenzstrategien fügen wir absichtlich Rauschen hinzu, indem wir zufällige oder pseudozufällige Störungen einspeisen, um die Zuverlässigkeit zu verbessern, indem wir während der Konvergenz im Wesentlichen lokale Minima in der Optimierungsoberfläche herausspringen. 2
Was wir in aktuellen KI-Systemen akzeptieren und bewusst einführen, sind die gleichen Dinge, die die Elektronik zu digitalen Schaltungen geführt haben.
Warum nicht zu analogen Schaltungen für neuronale Netze zurückkehren und diese mit Operationsverstärkermatrizen anstelle von Matrizen digitaler Signalverarbeitungselemente implementieren?
Die Werte der künstlichen Netzwerk-Lernparameter können mithilfe integrierter Kondensatoren, die über D / A-Wandler aufgeladen werden, aufrechterhalten werden, sodass die gelernten Zustände von der digitalen Genauigkeit und Bequemlichkeit profitieren können, während die Vorwärtsausbreitung von analogen Vorteilen profitiert.
- Höhere Geschwindigkeit 3
- Größenordnungen weniger Transistoren zur Darstellung von Netzwerkzellen
- Natürliches thermisches Rauschen 4
Ein akademischer Artikel oder eine Patentrecherche nach analogen künstlichen Netzwerken zeigen, dass in den letzten vierzig Jahren viel Arbeit geleistet wurde, und der Forschungstrend wurde beibehalten. Analoge Rechenschaltungen sind gut entwickelt und bieten eine Basis für neuronale Arrays.
Könnte die derzeitige Besessenheit von digitalen Berechnungen die allgemeine Sichtweise der AI-Architekturoptionen trüben?
Ist Hybrid Analog die überlegene Architektur für künstliche Netzwerke?
Fußnoten
[1] Der PAC (wahrscheinlich ungefähr korrekt) bezieht Learning Framework akzeptabler Fehler und akzeptabler Zweifel zum Probenabmessungen , die für Typen für spezifische Modelllernen. (Beachten Sie, dass die Genauigkeit und das Vertrauen in dieses Framework darstellt.)
[2] Der stochastische Gradientenabstieg wird gezeigt, wenn geeignete Strategien und Hyperparameter verwendet werden, um während des Lernens schneller zu konvergieren, und wird in typischen realen Anwendungen künstlicher Netzwerke zu einer bewährten Praxis.
[3] Der Intel Core i9-7960X-Prozessor arbeitet mit einer Turbogeschwindigkeit von 4,2 GHz, wohingegen der Standard-Satellitenrundfunk 41 GHz beträgt.
[4] Thermisches Rauschen kann auf Silizium durch Verstärken und Filtern von Elektronenleckströmen über eine in Sperrrichtung vorgespannte Zenerdiode an ihrem Lawinenpunkt erhalten werden. Die Quelle des Quantenphänomens ist das Johnson-Nyquist-Rauschen. Sanguinetti et. al. In ihrer 'Quantum Random Number Generation on a Mobile Phone' (2014) heißt es: "Ein Detektor kann als verlustbehafteter Kanal mit einer Übertragungswahrscheinlichkeit η modelliert werden, gefolgt von einem Photon-Elektron-Wandler mit Einheitswirkungsgrad ... gemessener Verteilung sei die Kombination aus Quantenunsicherheit und technischem Rauschen ", so CalTechs JTWPA-Arbeit. Beides kann zu Standards für die Erzeugung von wirklich nichtdeterministischem Quantenrauschen in integrierten Schaltkreisen werden.
Verweise
- STDP-Lernen von Bildfeldern mit Faltungs-Spiking-Neuronalen Netzen , Saunders et. al. 2018, U Mass und HAS
- Allgemeine Codebeschleunigung mit Analogberechnung mit begrenzter Genauigkeit , Amant et. al., 2014
- Analoges Rechnen und biologische Simulationen werden durch den neuen MIT-Compiler von Devin Coldewey, 2016, unterstützt
- Analog Computing kehrt zurück , von Larry Hardesty, 2016 *
- Warum analoge Berechnung? , NSA freigegebenes Dokument
- Zurück zum analogen Rechnen: Columbia-Forscher führen analoges und digitales Rechnen auf einem einzigen Chip zusammen , Columbia U, 2016
- Field-Programmable Crossbar Array (FPCA) für rekonfigurierbares Rechnen , Zidan et. al., IEEE, 2017
- FPAA / Memristor Hybrid Computing Infrastructure , Laiho et. al., IEEE, 2015
- Grundlagen und aufkommende Paradigmen für das Rechnen in lebenden Zellen , Ma, Perli, Lu, Harvard U, 2016
- Ein flexibles Modell eines vor Ort programmierbaren CMOS-Transistor-Arrays für die Hardware-Evolution (FPAA) von Zebulum, Stoica, Keymeulen, NASA / JPL, 2000
- Benutzerdefiniertes lineares Array mit bis zu 48 Präzisions-Operationsverstärkern pro Chip , Ashok Bindra, 2001, Electronics Design
- Feldprogrammierbare Analog-Arrays für die analoge Signalverarbeitung in großem Maßstab , Hall et. al., IEEE Transactions on Circuits and Systems, vol. 52, nein. 11, 2005
- Feldprogrammierbare Analogarrays für die analoge Signalverarbeitung in großem Maßstab , Hall et. al. 2005
- Ein VLSI-Array aus stromsparenden Spiking-Neuronen und bistabilen Synapsen mit spike-timing-abhängiger Plastizität , Indiveri G, Chicca E, Douglas RJ, 2006
- https://www.amazon.com/Analog-Computing-Ulmann/dp/3486728970
- https://www.amazon.com/Neural-Networks-Analog-Computation-Theoretical/dp/0817639497
quelle
Antworten:
Ich denke, es gibt verschiedene Gründe. Vor allem: Flexibilität. Mit modernen CPUs und GPUs können Sie so ziemlich jedes KI-Modell konstruieren, das Sie möchten, und das in jeder gewünschten Größe und Komplexität. Wie können Sie sicher sein, dass das von Ihnen verwendete Modell auch in einigen Jahren noch geeignet ist? Vielleicht wird es in den nächsten Jahren einen großen Durchbruch bei den NN geben? Vielleicht finden einige Wissenschaftler, dass es einen besseren Weg gibt, eine KI zu entwickeln, als mit NNs, genetischen Algorithmen usw. Normale Chips können damit umgehen, und sie können damit gut genug umgehen. Wenn Sie es jedoch optimieren möchten und sich keine Sorgen um Geld machen müssen, können Sie eine spezialisierte Architektur entwickeln (dies wird bereits von verschiedenen Unternehmen durchgeführt, wodurch die Geschwindigkeit bei bestimmten Aufgaben erheblich gesteigert wird).
Grund Nummer zwei: Massenproduktion. Ich meine, Unternehmen könnten schließlich hochintegrierte analoge AI-Komponenten herstellen (zum Beispiel NN-Chips). Aber das wäre eine größere Investition. Es ist ziemlich unklar, ob Einheiten, die flexibel genug sind, um eine ernstzunehmende Alternative für KI-Hardware zu sein, leicht in einer Massen-Nanometer-Produktion hergestellt werden können, die mit CPUs und GPUs konkurrieren kann. Vor allem letztere sind für massive Parallelberechnungen stark optimiert. Und wenn Sie sich die Entwicklung von GPU-ähnlichen Architekturen ansehen (die nur wenige, aber sehr gute Funktionen bieten), die zusätzlich für maschinelles Lernen optimiert sind, werden Sie feststellen, dass dies ein harter Wettbewerb für analoge Einheiten wäre.
All dies bedeutet nicht, dass es in diesem Bereich keine Forschung gibt. Es gibt einige Experimente, die versuchen, dies zu erreichen, aber für gängige Architekturen sind sie noch nicht "gefährlich". Irgendwann werden sie in die Zukunft kommen, wenn wir KI und Intelligenz im Allgemeinen besser verstehen und nur versuchen, sie zu optimieren, aber ich bin eher skeptisch.
EDIT: Auch etwas, das irgendwie zur Flexibilität gehört: Sie können besser mit den AI-Algorithmen experimentieren, die auf "normaler" digitaler Hardware ausgeführt werden. Zum Beispiel können Sie einen NN an bestimmten Stellen leicht inspizieren, Sie können die Eingabedaten schnell ändern oder alternative Daten bereitstellen, Sie sind wirklich an nichts gebunden. Und da wir immer noch nicht jedes Modell vollständig kennen oder verstehen, wann es zu verwenden ist, ist es nicht sinnvoll, etwas "junges" und "experimentelles" in ein festes Analogon zu setzen, wenn es bessere Architekturen für eine bestimmte Aufgabe usw. gibt die Architektur.
quelle
Schnelle Antwort
Als Intel Nirvana erwarb, zeigten sie ihre Überzeugung, dass analoges VLSI seinen Platz in den neuromorphen Chips der nahen Zukunft hat 1, 2, 3 .
Ob es daran lag, das natürliche Quantenrauschen in analogen Schaltkreisen leichter auszunutzen, ist noch nicht öffentlich. Dies liegt eher an der Anzahl und Komplexität der parallelen Aktivierungsfunktionen, die in einen einzelnen VLSI-Chip gepackt werden können. Analog hat in dieser Hinsicht einen Vorteil von Größenordnungen gegenüber Digital.
Es ist wahrscheinlich für AI Stack Exchange-Mitglieder von Vorteil, sich über diese stark angedeutete technologische Entwicklung zu informieren.
Wichtige Trends und Nicht-Trends in der KI
Um sich dieser Frage wissenschaftlich zu nähern, ist es am besten, analoge und digitale Signaltheorie ohne die Tendenz von Trends gegenüberzustellen.
Enthusiasten der künstlichen Intelligenz können im Internet viel über Deep Learning, Feature-Extraktion, Bilderkennung und die Software-Bibliotheken erfahren, die sie herunterladen und sofort mit dem Experimentieren beginnen können. Auf diese Weise werden die meisten mit der Technologie nass, aber die schnelle Einführung in die KI hat auch ihre Schattenseiten.
Wenn die theoretischen Grundlagen eines frühen erfolgreichen Einsatzes verbraucherorientierter KI nicht verstanden werden, bilden sich Annahmen, die mit diesen Grundlagen in Konflikt stehen. Wichtige Optionen wie analoge künstliche Neuronen, Netzwerke mit Stacheln und Echtzeit-Feedback werden übersehen. Die Verbesserung von Formularen, Funktionen und Zuverlässigkeit wird beeinträchtigt.
Die Begeisterung für die technologische Entwicklung sollte immer mit mindestens gleichem Maß an rationalem Denken gemildert werden.
Konvergenz und Stabilität
In einem System, in dem Genauigkeit und Stabilität durch Rückkopplung erreicht werden, sind sowohl analoge als auch digitale Signalwerte immer nur Schätzungen.
Das Verständnis der Parallele zwischen Konvergenz durch Fehlerkorrektur in einem digitalen Algorithmus und Stabilität, die durch Rückkopplung in analogen Instrumenten erreicht wird, ist wichtig, um über diese Frage nachzudenken. Dies sind die Parallelen im zeitgenössischen Jargon, mit digital links und analog rechts.
Popularität von digitalen Schaltungen
Der Hauptfaktor für den Anstieg der Popularität digitaler Schaltungen ist die Eindämmung von Rauschen. Heutige VLSI-Digitalschaltungen weisen lange mittlere Ausfallzeiten auf (mittlere Zeit zwischen Instanzen, in denen ein falscher Bitwert auftritt).
Die virtuelle Beseitigung von Rauschen verschaffte der digitalen Schaltung einen signifikanten Vorteil gegenüber der analogen Schaltung für Messung, PID-Regelung, Berechnung und andere Anwendungen. Mit digitalen Schaltkreisen konnte man auf fünf Dezimalstellen genau messen, mit bemerkenswerter Genauigkeit steuern und π auf tausend Dezimalstellen genau berechnen, wiederholbar und zuverlässig.
Es waren in erster Linie die Budgets für Luftfahrt, Verteidigung, Ballistik und Gegenmaßnahmen, die die Produktionsnachfrage steigerten, um die Skaleneffekte bei der Herstellung digitaler Schaltungen zu erreichen. Die Nachfrage nach Bildschirmauflösung und Rendering-Geschwindigkeit treibt die GPU-Nutzung als digitaler Signalprozessor jetzt voran.
Verursachen diese weitgehend wirtschaftlichen Kräfte die besten Gestaltungsentscheidungen? Sind digital basierte künstliche Netzwerke die beste Nutzung wertvoller VLSI-Immobilien? Das ist die Herausforderung dieser Frage, und es ist eine gute.
Realitäten der IC-Komplexität
Wie in einem Kommentar erwähnt, sind Zehntausende von Transistoren erforderlich, um ein unabhängiges, wiederverwendbares künstliches Netzwerkneuron in Silizium zu implementieren. Dies liegt hauptsächlich an der Vektor-Matrix-Multiplikation, die in jede Aktivierungsschicht führt. Es sind nur ein paar Dutzend Transistoren pro künstlichem Neuron erforderlich, um eine Vektor-Matrix-Multiplikation und das Array der Operationsverstärker der Schicht zu implementieren. Operationsverstärker können so ausgelegt werden, dass sie Funktionen wie Binärschritt, Sigmoid, Soft Plus, ELU und ISRLU ausführen.
Digitales Signalrauschen durch Rundung
Die digitale Signalübertragung ist nicht rauschfrei, da die meisten digitalen Signale gerundet und daher approximiert sind. Die Sättigung des Signals bei der Rückausbreitung erscheint zuerst als das digitale Rauschen, das aus dieser Näherung erzeugt wird. Eine weitere Sättigung tritt auf, wenn das Signal immer auf dieselbe Binärdarstellung gerundet wird.
Programmierer stoßen manchmal auf die Auswirkungen der Rundung von IEEE-Gleitkommazahlen mit doppelter oder einfacher Genauigkeit, wenn Antworten mit einem erwarteten Wert von 0,2 als 0,20000000000001 angezeigt werden. Ein Fünftel kann nicht exakt als Binärzahl dargestellt werden, da 5 kein Faktor 2 ist.
Wissenschaft über Medienrummel und beliebte Trends
Beim maschinellen Lernen gibt es, wie bei vielen Technologieprodukten, vier wichtige Qualitätsmetriken.
Manchmal, aber nicht immer, beeinträchtigt das Erreichen eines anderen das Gleichgewicht. In diesem Fall muss ein Gleichgewicht hergestellt werden. Gradient Descent ist eine Konvergenzstrategie, die mit einem digitalen Algorithmus realisiert werden kann, der diese vier Faktoren gut ausbalanciert. Deshalb ist sie die dominierende Strategie beim mehrschichtigen Perzeptrontraining und in vielen tiefen Netzwerken.
Diese vier Dinge standen im Mittelpunkt der frühen Kybernetikarbeit von Norbert Wiener vor den ersten digitalen Schaltungen in Bell Labs oder dem ersten mit Vakuumröhren realisierten Flip-Flop. Der Begriff Kybernetik leitet sich aus dem Griechischen κυβερνήτης (ausgesprochen kyvernítis ) ab und bedeutet Steuermann, bei dem das Ruder und die Segel ständig wechselnden Wind und Strömung ausgleichen mussten und das Schiff auf dem vorgesehenen Hafen zusammenlaufen musste.
Der trendgetriebene Blick auf diese Frage könnte die Idee umfassen, ob VLSI zur Erzielung von Skaleneffekten für analoge Netze eingesetzt werden kann, aber die vom Autor angegebenen Kriterien bestehen darin, trendgetriebene Ansichten zu vermeiden. Selbst wenn dies nicht der Fall wäre, werden, wie oben erwähnt, erheblich weniger Transistoren benötigt, um künstliche Netzwerkschichten mit einer analogen Schaltung als mit einer digitalen zu erzeugen. Aus diesem Grund ist es legitim, die Frage zu beantworten, wenn man davon ausgeht, dass VLSI-Analog zu vernünftigen Kosten sehr gut realisierbar ist, wenn die Aufmerksamkeit darauf gerichtet ist, dies zu erreichen.
Analoges künstliches Netzwerkdesign
Analoge künstliche Netze werden auf der ganzen Welt untersucht, darunter das Joint Venture IBM / MIT, Intels Nirvana, Google, die US Air Force bereits 1992 5 , Tesla und viele andere, von denen einige in den Kommentaren und im Nachtrag dazu angegeben sind Frage.
Das Interesse an Analog für künstliche Netzwerke hängt mit der Anzahl der parallelen Aktivierungsfunktionen zusammen, die beim Lernen auf einen Quadratmillimeter VLSI-Chip-Grundfläche passen können. Das hängt wesentlich davon ab, wie viele Transistoren benötigt werden. Die Dämpfungsmatrizen (die Lernparameter-Matrizen) 4 erfordern eine Vektor-Matrix-Multiplikation, die eine große Anzahl von Transistoren und somit einen signifikanten Teil von VLSI-Immobilien erfordert.
In einem mehrschichtigen Perceptron-Basisnetzwerk müssen fünf unabhängige Funktionskomponenten vorhanden sein, damit es für ein vollständig paralleles Training zur Verfügung steht.
In analogen Schaltungen sind 2 und 4 aufgrund der größeren Parallelität, die der Signalübertragungsmethode inhärent ist, möglicherweise nicht erforderlich. Die Rückkopplungstheorie und die Oberschwingungsanalyse werden mit einem Simulator wie Spice auf das Schaltungsdesign angewendet.
Für übliche Werte dieser Schaltungen in aktuellen analogen integrierten Schaltungen fallen Kosten für analoge VLSI-Chips an, die im Laufe der Zeit auf einen Wert konvergieren, der mindestens drei Größenordnungen unter dem von digitalen Chips mit äquivalenter Trainingsparallelität liegt.
Lärminjektion direkt ansprechen
In der Frage heißt es: "Wir verwenden Gradientenmodelle (Jacobian) oder Modelle zweiten Grades (Hessian), um die nächsten Schritte in einem konvergenten Algorithmus abzuschätzen, und fügen absichtlich Rauschen hinzu [oder] fügen Pseudozufallsstörungen hinzu, um die Konvergenzzuverlässigkeit zu verbessern, indem lokale Fehlerquellen herausgesprungen werden Oberfläche während der Konvergenz. "
Der Grund, warum Pseudozufallsrauschen während des Trainings und in in Echtzeit wiedereintretenden Netzwerken (wie Verstärkungsnetzwerken) in den Konvergenzalgorithmus eingespeist wird, ist das Vorhandensein lokaler Minima in der Disparitäts- (Fehler-) Oberfläche, die nicht die globalen Minima davon sind Oberfläche. Das globale Minimum ist der optimal trainierte Zustand des künstlichen Netzwerks. Lokale Minima können weit vom Optimum entfernt sein.
Diese Oberfläche zeigt die Fehlerfunktion von Parametern (zwei in diesem stark vereinfachten Fall 6 ) und die Frage nach einem lokalen Minimum, das die Existenz des globalen Minimums verbirgt. Die Tiefpunkte in der Oberfläche stellen Minima an den kritischen Punkten lokaler Regionen optimaler Trainingskonvergenz dar. 7,8
Fehlerfunktionen sind lediglich ein Maß für die Disparität zwischen dem aktuellen Netzwerkstatus während des Trainings und dem gewünschten Netzwerkstatus. Ziel beim Training künstlicher Netzwerke ist es, das globale Minimum dieser Disparität zu finden. Eine solche Oberfläche existiert unabhängig davon, ob die Probendaten markiert oder unmarkiert sind und ob das Trainingsabschlusskriterium innerhalb oder außerhalb des künstlichen Netzwerks liegt.
Wenn die Lernrate klein ist und sich der Anfangszustand am Ursprung des Parameterraums befindet, konvergiert die Konvergenz unter Verwendung des Gradientenabfalls ganz links, was ein lokales Minimum ist, nicht das globale Minimum rechts.
Selbst wenn die Experten, die das künstliche Netzwerk für das Lernen initialisieren, klug genug sind, um den Mittelpunkt zwischen den beiden Minima zu bestimmen, steigt der Gradient an diesem Punkt immer noch zum linken Minimum hin an, und die Konvergenz erreicht einen nicht optimalen Trainingszustand. Wenn die Optimalität des Trainings kritisch ist, was häufig der Fall ist, kann das Training keine Ergebnisse in Produktionsqualität erzielen.
Eine verwendete Lösung besteht darin, dem Konvergenzprozess Entropie hinzuzufügen, was häufig einfach das Einspeisen der gedämpften Ausgabe eines Pseudozufallszahlengenerators ist. Eine andere weniger häufig verwendete Lösung besteht darin, den Trainingsprozess zu verzweigen und die Injektion einer großen Menge Entropie in einem zweiten konvergenten Prozess zu versuchen, so dass eine konservative Suche und eine etwas wilde Suche parallel ablaufen.
Es ist wahr, dass Quantenrauschen in extrem kleinen analogen Schaltungen eine größere Gleichförmigkeit des Signalspektrums von seiner Entropie her aufweist als ein digitaler Pseudozufallsgenerator, und dass viel weniger Transistoren erforderlich sind, um das Rauschen mit höherer Qualität zu erzielen. Ob die Herausforderungen bei der Implementierung von VLSI überwunden sind, müssen die in Regierungen und Unternehmen eingebetteten Forschungslabors erst noch offenlegen.
Alle drei Herausforderungen sind plausibel. Sicher und auch sehr interessant ist, wie Designer und Hersteller die digitale Steuerung der analogen Signalwege und Aktivierungsfunktionen ermöglichen, um ein Hochgeschwindigkeitstraining zu erreichen.
Fußnoten
[1] https://ieeexplore.ieee.org/abstract/document/8401400/
[2] https://spectrum.ieee.org/automaton/robotics/artificial-intelligence/analog-and-neuromorphic-chips-will-robotic-age
[3] https://www.roboticstomorrow.com/article/2018/04/was ist der Unterschied zwischen analogen und neuromorphen Chips in Robotern ?
[4] Dämpfung bezieht sich auf die Multiplikation eines Signals, das von einer Betätigung ausgegeben wird, mit einem trainierbaren Parameter, um ein Addend bereitzustellen, das mit anderen für die Eingabe zu einer Aktivierung einer nachfolgenden Schicht summiert werden soll. Obwohl dies ein physikalischer Begriff ist, wird er in der Elektrotechnik häufig verwendet und ist der geeignete Begriff, um die Funktion der Vektor-Matrix-Multiplikation zu beschreiben, mit der in weniger gut ausgebildeten Kreisen eine Gewichtung der Schichteingaben erreicht wird.
[5] http://www.dtic.mil/dtic/tr/fulltext/u2/a256621.pdf
[6] In künstlichen Netzwerken gibt es viel mehr als zwei Parameter. In dieser Abbildung sind jedoch nur zwei dargestellt, da die Darstellung nur in 3D nachvollziehbar ist und wir eine der drei Dimensionen für den Wert der Fehlerfunktion benötigen.
[8] Zugehörige Gnuplot-Befehle:
quelle
Digitale Instrumentierung der Analogzellen
Eine der Hauptherausforderungen in analogen künstlichen Netzwerken ist, dass die Netzwerkinstrumentierung am praktischsten wäre, wenn sie digital wäre. Jede VLSI-Implementierung von analogen Perzeptronen, Faltungen oder Spikernetzen benötigt wahrscheinlich digitale Komponenten in einer Hybridanordnung für mehrere Funktionen.
Dies bedeutet, dass die Realisierung eines analogen künstlichen Allzweck-Lernnetzwerks eine A-zu-D- und eine D-zu-A-Umwandlung erfordert. 2 Die Herausforderung beim VLSI-Design besteht darin, den Aufbau von Transistoren durch die Einführung einer großen Anzahl von Umwandlungsblöcken zu vermeiden. Dies würde den Dichtevorteil der analogen Realisierung der Vorwärts- und Rückwärtsausbreitung zunichte machen.
Die wahrscheinliche Lösung besteht darin, eine Latch-Matrix zu verwenden, um Signale von den D / A-Wandlern auf Kondensatoren zu verteilen, und die Schaltmatrix mit niedrigem Leckstrom auszuwählen, welcher Wert von den A / D-Wandlern gelesen wird. Dies muss erfolgen, ohne digitale Störungen in die analogen Pfade einzuführen und ohne die gespeicherten Ladungen zu verschlechtern oder ihre Genauigkeit zu beeinträchtigen.
Wie bedeutend die Anzahl zusätzlicher Transistoren und Routen in einem Ausgang des primären Netzwerkkreises sein würde, kann nur durch Ausführen eines VLSI-Entwurfsprozesses festgestellt werden.
Wichtige Open Source Beiträge
Die University of Massachusetts eingeführt , um das Open - Source - Repository BindsNet 3,4 im Februar 2018. Es analoge Spicken Netzwerke mit digitaler Software und Hardware und nutzt die GPU - Beschleunigung durch PyTorch simuliert.
Dies erleichtert das heutige Experimentieren mit Spitzennetzwerkdesigns und -strategien. Erfolgreiche Simulationen würden wahrscheinlich zu einem überlegenen VLSI-Design führen, wenn sie signifikant genug sind.
Fußnoten
[1] In jedem praktischen Lernsystem müssen gelernte Parameter aus der VLSI-Implementierung extrahiert, in einer Datenbank gespeichert und einer beliebigen Anzahl von Entwicklungs-, Test-, UAT- oder Produktionssystemen zur Bereitstellung, Fehlerursachenanalyse, Skalierung und zur Verfügung gestellt werden Notfallwiederherstellung. Das Speichern und Laden muss ein grundlegendes Merkmal von analogen VLSI-Hybrid-Kunstnetzen sein, auch zwischen den Epochen während des Trainings und während des tatsächlichen Feldeinsatzes.
[2] Man kann den gelernten Zustand eines künstlichen Netzwerks in Kondensatoren nicht auf unbestimmte Zeit halten. Obwohl Kondensatoren die dominierende passive Komponente für analoge Schaltungen geworden sind, die in Standard-CMOS-Prozessen entworfen wurden, können sie nicht viel Kapazität haben und der Verlust ist nicht Null. Die Halbwertszeit der kapazitiven Speicherschaltungen und die erforderliche Genauigkeit der Parameterwerte bestimmen die Rate eines Lese- und bedingten Aktualisierungszyklus.
[3] Open Source-Repository von BindsNet
[4] BindsNET [paper]: Eine maschinell lernorientierte Spiking-Bibliothek für neuronale Netze in Python für die Harvard-U-Veröffentlichung des Abstracts aus dem BindsNet-Paper.
quelle
Ich bin überrascht, dass niemand einige der spezifischen Forschungsrichtungen auf dem Gebiet der analogen KI erwähnt hat. Künstliche Intelligenz zu klären ist nicht genau dasselbe wie maschinelles Lernen, wie diese Antwort nahelegt. Die jüngsten Fortschritte bei der analogen Berechnung betrafen ausschließlich das maschinelle Lernen.
Analoges CMOS:
Lassen Sie uns zunächst über die frühesten analogen Implementierungen von Neuronen sprechen. Dr. Giacomo Indiveri et al. Waren nur wenige der Pioniere auf diesem Gebiet. Obwohl Sie mit CMOS-Logik spitze neuronale Netze mit STDP (Spike Time Dependent Plasticity) entwerfen können , ist es schwierig, sie in Algorithmen für maschinelles Lernen zu verwenden. Das menschliche Gehirn muss noch vollständig verstanden werden, insbesondere, wie es komplexe Informationen mit Spikes kommuniziert. Die auf Spikes basierenden Netzwerke eignen sich gut für die Ausführung von relativ kleinen Bilderkennungs- und Aufgaben mit geringer Komplexität (die meisten Artikel scheinen sich mehr um die Verbesserung der Leistung zu kümmern als um hochkomplexe Aufgaben). Aufgrund der Vielzahl der verfügbaren Transistoren können wir sie möglicherweise für komplexe Aufgaben verwenden.
Das beste Beispiel wäre, dass Google diese Idee der geringen Präzision bei TPUs und der Kompensation der Präzision verwendet, indem eine große Anzahl von Verarbeitungseinheiten verwendet wird, was zu einem Kompromiss zwischen Zeit, Präzision und Fläche führt. Dies kann analog zu einer großen Anzahl von Transistoren in einem Prozessor sein, wenn auch mit geringer Genauigkeit. ( Ein genauer Blick auf Googles erste Tensor Processing Unit (TPU) )
ANMERKUNG: Einige argumentieren möglicherweise, dass die CMOS-Technologie unter die digitale Domäne fällt, aber da wir hier nicht speziell CMOS verwenden, um eine digitale Operation auszuführen, würde ich sie gerne als analog betrachten.
Spike-basierte Aufgaben sind anscheinend recht gut für Winner Take All-Netzwerke (ähnlich wie selbstorganisierende Karten ), daher ist dies die allgemeine Methode zum Implementieren von Algorithmen für maschinelles Lernen in VLSI-Chips.
Spike-basierte Netzwerke haben keinen idealen Speicher, Sie können keine hochpräzisen Gewichte haben. Sie haben vorgeschlagen, biologische Gewichte oder Synapsen oder Speicher unter Verwendung von Kondensatoren zu implementieren, aber anscheinend sieht es sich ähnlichen Problemen wie bei normalen Siliziumchips gegenüber, z. wie -1, 0, 1).
Digitale Berechnung:
Hier kommt die digitale Berechnung. Aufgaben, die ein hohes Maß an Gleitkommadarstellung erfordern, können nicht einfach durch Spikes implementiert werden, da wir die biophysikalischen oder sonstigen Aspekte eines echten Neurons noch nicht vollständig nachahmen können. Digitale Berechnungen helfen einfach dabei, mehr Informationen so präzise zu übermitteln, wie wir möchten (wenn wir eine solche CPU entwerfen). Auch wenn Engpässe ein bekannter Nachteil der Von Neumann-Architektur für digitale Berechnungen sind, ist dies kein so großes Problem wie die Darstellung von Informationen über Spikes. Spikes haben immer eine feste Größe. Die einzige Art und Weise, wie sie Informationen vermitteln, ist wahrscheinlich die Häufigkeit und das Vorzeichen (erregend oder hemmend). Auch die Taktraten sind in modernen Computern ziemlich hoch.
Memristoren: Eine neue Richtung
Hier kommt die neueste Erfindung, der Memristor . Dies war bei weitem das vielversprechendste analoge Gerät im maschinellen Lernen. Memristoren sind ein sehr neues Konzept, das in den 70er Jahren vorhergesagt und erst 2008 hergestellt wurde. Grundsätzlich handelt es sich um RRAMs oder Resisitive RAMs. Hierbei steht der Widerstand des Speicherwiderstands oder Memristors in direktem Zusammenhang mit der vergangenen aktuellen Geschichte, die den biophysikalischen Modellen von Neuronen sehr ähnlich ist. Sie können auch einfach mit Crossbar-Arrays (im Grunde genommen Matrix aus elektrischen Kontakten) von Memristoren trainiert werden (Crossbar-Arrays stellen Gewichtsmatrizen dar, wobei die an Zeilen oder Spalten angelegte Spannung die Vorwärts- oder Rückwärtsausbreitung bestimmt).
Somit verleiht Memristor den Algorithmen für maschinelles Lernen eine echte analoge Note. Leider gibt es aufgrund der jüngsten Ankunft eine Reihe von Problemen, die noch gelöst werden müssen.
Forschungslabor für Nanoelektronik, Purdue University
Elektrochemische Materialien, ETH Zürich
Human Brain Project
Das MARCS Institut für Gehirn, Verhalten und Entwicklung
Neuromorphe Photonik:
In letzter Zeit gab es ein Interesse auf dem Gebiet der neuromorphen Photonik. Hier ist ein kurzer Artikel darüber. Ich kenne die internen Abläufe derselben nicht, aber bei AFAIK geht es um die Übertragung von Informationen in optischer Form innerhalb des Verarbeitungs-Chips selbst. Dies führt zu einigen Vorteilen gegenüber normalen analogen oder digitalen Schaltungen:
quelle
Ich glaube, dass die meisten Leute die Frage fleißig und wirklich informativ beantwortet haben. Ich möchte nur sagen, dass wir häufig digitale Schaltungen verwenden, da dies die vorhandene Technologie ist und auf jeden Fall analoge Schaltungen vielversprechend erscheinen.
Gegenwärtig ist diese Idee jedoch trotz des Forschungsaufwands der letzten Jahre nicht sehr gut entwickelt. Bisher hat kein Unternehmen versucht, die Idee auf kommerzieller Ebene umzusetzen, indem es solche Chips für den Einsatz außerhalb seiner Labore herstellt.
Außerdem fühlt sich diese Idee wie ein neuer Ansatz an und hat ein großes Potenzial.
Da wir jedoch nicht genau wissen, wie einige Modelle funktionieren, ist es für manche einfach kein Problem. Wie neuronale Netze solch komplexe Probleme und viele andere Dinge wirklich lösen. Daher ist es noch eine ziemlich weit entfernte Technologie, ihr volles Potenzial auszuschöpfen.
PS Ich bin noch ein Anfänger auf diesem Gebiet und denke, dass meine Meinung nicht zählt. Wenn ich irgendwo überflüssig war oder Ihnen die erwartete Antwort nicht gegeben habe, bedaure ich es aufrichtig.
quelle
Man kann sich der Frage auch unter dem Aspekt der Informationstheorie nähern:
Es stehen zwei Kompromisse zur Auswahl:
Analoge Informationen, die Informationen präziser / spezifischer darstellen können, aber in begrenzter Menge vorliegen.
Digitale Informationen, die die reale Welt nicht vollständig abbilden, jedoch innerhalb weniger Bits eine unbegrenzte Menge an Informationen enthalten können. Ein gutes Beispiel könnte so etwas wie eine inkrementelle for-Schleife sein:
Welches ist dann mächtiger?
quelle
Hava Siegelmann
Auf den ersten Blick ist das analoge Rechnen dem digitalen überlegen. Quantencomputer sind schneller als Von-Neumann-Computer und neuromorphe Chips benötigen weniger Energie als Intel-CPUs. Auch aus theoretischer Sicht sprechen viele für analoge Computer. Hava Siegelmann hat die Super-Turing-Fähigkeit von neuronalen Netzen untersucht, dh ein analoger Computer kann einen digitalen emulieren, nicht jedoch umgekehrt. Warum sollten wir also kein analoges Computing verwenden?
Stephen Wolfram
Der Grund hat mit dem Bildungssystem zu tun. Klassische Mathematik, die an Schulen unterrichtet wird, ist analoge Mathematik. Es basiert auf Rechenschiebern, Logarithmentabellen und dem Denken in Schaltkreisen. Im Gegensatz dazu ist das Denken in diskreten Werten eines Algorithmus und das Beschreiben der Welt in Null und Eins grundlegend anders und führt uns zu einer neuen Art von Mathematik. Stephen Wolfram hat erklärt, dass das Verständnis von Zellularautomaten ein wichtiger Schritt ist, um das Universum zu beschreiben, und er hat Recht. Analoge Mathematik zu ignorieren und fähige Computersprachen zu bevorzugen, ist eine leistungsfähige Methode im Unterricht. Es hilft nicht nur, sich mit Computern vertraut zu machen, sondern auch mit allen anderen Dingen wie Medizin, Literatur und Wirtschaft. Auch wenn analoge Maschinen technisch überlegen sind, sollten wir langsame, aber diskrete Turing-Maschinen bevorzugen.
Mathematik unterrichten
Um den Unterschied zwischen digitaler und analoger Berechnung zu verstehen, müssen wir uns auf die Mathematik konzentrieren, die in Schulen verwendet wird. Wenn die Idee besteht, analoge Berechnungen voranzutreiben, wird die entsprechende Art der Mathematik nach elektrischen Feldern, Integration und Differenzierung gruppiert. In den Schulen wird dies unter dem Oberbegriff „Mathematische Analyse“ gelehrt. Dieses Thema war in der Vergangenheit sehr wichtig, da Analysen helfen, Brücken, Maschinen und Autos zu bauen. In all diesen Bereichen wird Vektoralgebra zur Beschreibung des geometrischen Raums verwendet.
Wenn analoge Berechnungen so leistungsfähig sind, warum braucht dann jemand digitale Mathematik? Es hat mit Algorithmus zu tun. Was Planimeter und Differentialanalysator nicht zu bieten haben, sind Programmiermöglichkeiten. Algorithmen und künstliche Sprachen können nicht definiert werden. Ein Blick in die Geschichte der Mathematik zeigt, dass die Algorithmus-Theorie in der Vergangenheit nicht sehr verbreitet war. In der modernen Mathematik wird es unter dem Begriff Lambda-Kalkül und Halting-Problem diskutiert .
Das Lustige ist, dass Lamda-Kalkül auf den ersten Blick keine praktischen Anwendungen hat. Es wird nicht benötigt, wenn jemand die Fläche einer Brücke berechnen möchte. Die Algorithmentheorie ist eine Denkschule zur Verbesserung des kritischen Denkens. Es ist eine Philosophie, die der Mensch braucht, nicht die Maschine.
quelle