Können tiefe Netzwerke trainiert werden, um Theoreme zu beweisen?

21

Angenommen, wir haben eine große Anzahl von Beweisen im Prädikatenkalkül erster Ordnung. Angenommen, wir haben auch die Axiome, Korollarien und Theoreme auf diesem Gebiet der Mathematik in dieser Form.

Betrachten Sie jeden Satz, der bewiesen wurde, und den Bestand der existierenden Theorie, der diesen bestimmten Satz umgibt, als Beispiel in einem Trainingssatz und einen bekannten guten Beweis für den Satz als die zugehörigen Bezeichnungen. Stellen Sie sich nun ein tiefgreifendes künstliches Netzwerk vor, das speziell für dieses Beispielset entwickelt wurde, und die dafür richtigen Hyperparameter.

Ist es möglich, ein tiefes künstliches Netzwerk so zu trainieren, dass die Darstellung eines neuen Satzes und der bestehenden Theorie, die im Prädikatenkalkül erster Ordnung am Eingang präsentiert wird, einen Beweis am Ausgang liefert?

(Natürlich sollten solche Beweise dann manuell überprüft werden.)

Wenn der Anteil an guten Beweisen ausreichend hoch wäre, könnte es möglich sein, einen genetischen Algorithmus zu erstellen, der dem trainierten tiefen Netzwerk Vorschläge macht, um Beweise zu erstellen?

Ist das möglich?

Wäre es möglich, diese Art von tiefem Netzwerkdesign zu verwenden, um die Collatz-Vermutung oder die Riemann-Vermutung zu lösen oder zumindest Muster so neu anzuordnen, dass Mathematiker besser zu einem legitimen Beweis gelangen können?

Max Mustermann Junior
quelle
5
Nach meinem Dafürhalten sind NNs nur für Funktionsannäherungen gut (sehr gut). Wenn man sagt, dass ein NN das kann, was man sagt, geht man davon aus, dass alle Beweise irgendwie eine Funktion des sind probelms, varibales oder andere dinge ... und ich weiß nicht, ob jemand das gesagt hat
DuttaA
2
@DouglasDaseeco Fast alle Beweise stammen von Mathematikern, die sich etwas Abstraktes "intuitiv" vorstellen und es dann zum Leben erwecken. NN ist definitiv nicht dazu in der Lage. Sie werden nur in der Lage sein, kleine oder ähnliche Theoreme wie das Auffinden eines Ausnahmefalls zu beweisen und damit widerlegen oder so ähnlich
DuttaA
1
@ DuttaA, Intuition ist viel einfacher, ein neuronales Netz als Logik zu lehren. Künstliche Netze können mehrdeutig adressierte E-Mails ohne Regelengine sortieren. Auch die Extraktion von Merkmalen und die unbeaufsichtigte Kategorisierung kommen der Intuition näher. Logische Operationen wie das Multiplizieren von Doppelwerten sind unüberwindlich. In der Entwicklungspsychologie erfolgt die intuitive Erlangung der Aufmerksamkeit Erwachsener Jahre vor der logischen UND- und ODER-Konzeptualisierung. Kinder denken nicht kausal: "Wenn ich jammere, wird meine Mutter zusammenbrechen und mir Zucker geben." Sie führen eine Funktion aus, keinen Plan. In meiner Antwort hier sind die ersten beiden Punkte am schwierigsten.
FauChristian
2
Könnte ich vorschlagen, eine NN zu verwenden, um einen traditionellen Theorembeweiser zu führen. Der reguläre Theorembeweiser präsentiert dem Netzwerk die Möglichkeiten, und der NN muss nur eine auswählen. Auf diese Weise muss es nicht lernen, was eine gültige Logik ist und was nicht, sondern nur, was interessant ist.
PyRulez

Antworten:

6

Bestehende Produktionssysteme, die in den letzten Jahrzehnten entwickelt wurden, enthalten die darin enthaltenen Inferenzregeln. Sie basieren auf der Vision von Leibniz, dass die gesamte klassische Logik in eine symbolische Sprache codiert und mechanisch verarbeitet werden kann. Es wurde eine Prädikatenlogik erster Ordnung entwickelt und eine Nomeklatur formalisiert.

Obwohl die Vision der automatischen Beweisführung durch die beiden Unvollständigkeitssätze von Gödel erheblich in Frage gestellt wurde, belebte Turings Vollständigkeitsarbeit und die Entwicklung einer Architektur, die von Neumann praktisch verwirklicht wurde, die Arbeit zur Automatisierung des mechanischen Inferenzprozesses.

Während der Zeit von Minsky lebte das AI-Labor des MIT von solchen Anstrengungen, aber das, was sie die kombinatorische Explosion nannten, zeigte, dass nicht genügend Rechenressourcen zur Verfügung standen, um den Platz zu durchsuchen, der erforderlich war, um beliebige Theoreme von nicht-trivialer Komplexität automatisch zu beweisen. Große parallele Computer, Verbindungsmaschinen genannt, und verschiedene Schemata, die Metaregeln und heuristische Ansätze verwendeten, wurden eingesetzt, um das kombinatorische Explosionsproblem zu überwinden.

Künstliche Netzwerke wurden eingeführt und die Idee, dass sie mit Produktionsmaschinen konkurrieren könnten, wurde von der LISP-Community auf den ersten Vorschlag gebracht. Angesichts des beachtlichen Erfolgs bei der Erhöhung der Computerressourcen und der jüngsten Erfolge beim maschinellen Lernen haben jedoch viele begonnen, Fragen zu stellen, die im 20. Jahrhundert zurückgestellt wurden.

Wir wissen bereits, dass künstliche Netzwerke beliebige logische und algebraische Funktionen lernen können, von denen viele PAC-lernbar sind. 1 Angesichts der richtigen Lernumgebung ist das Erlernen logischer Folgerungen eindeutig etwas, was die Großhirnrinde an ihrem derzeitigen Entwicklungsstand tun kann. Ob neuronale Netze diese Erkenntnisstufe erreichen, ist eine offene Frage, die sich viele stellen.

Die Forschung im Bereich der KI und des maschinellen Lernens konzentriert sich nicht auf die künstliche Netzwerkerfassung logischer Inferenzregeln, vor allem, weil die Programmierung in ein System wie DRools und andere häufig verwendete Produktionssysteme den Anschein erweckt, als ob ein rationalerer Ansatz dies nicht immer bedeuten würde. Die Frage ist, ob es einen ausreichenden Return on Investment gibt, um das zu tun, was interessant, aber sicherlich teuer ist, wenn bereits andere Lösungen existieren.

Diese Frage ähnelt einer anderen Frage zum Austausch künstlicher Intelligenz in Mathematik. Eine der dort gegebenen Antworten gilt hier.

Es ist wichtig, in diesem Zeitraum keinen Ansatz abzulehnen, da das jüngste Interesse an AI nicht nur die Staatsausgaben, sondern auch die kommerziellen Ausgaben wieder in Schwung gebracht hat. Diese Ausgaben erhöhen das Personal, die Rechenleistung und den Anreiz, Hindernisse zu überwinden, die früher als unüberwindbar galten.


Fußnoten

[1] PAC Learning ist ein Rahmen zur Bestimmung der praktischen Berechenbarkeit von Lernalgorithmen unter Berücksichtigung der Merkmale der Klasse von Hypothesen, die mit dem gegebenen Modell und der erwarteten Genauigkeit und Zuverlässigkeit des Lernprozesses erlernt werden können.

FauChristian
quelle
1

Ihre Idee mag im Allgemeinen machbar sein, aber ein neuronales Netzwerk ist wahrscheinlich das falsche Werkzeug auf hoher Ebene , um dieses Problem zu untersuchen.

Die Stärke eines neuronalen Netzwerks besteht darin, interne Darstellungen zu finden, die eine höchst nichtlineare Lösung bei der Zuordnung von Eingaben zu Ausgaben ermöglichen. Wenn wir ein neuronales Netzwerk trainieren, werden diese Zuordnungen durch Wiederholung von Beispielen statistisch gelernt. Dies führt tendenziell zu Modellen, die gut interpolieren, wenn Daten ähnlich dem Trainingssatz angegeben werden, die jedoch schlecht extrapoliert werden .

Bei neuronalen Netzwerkmodellen fehlt auch der Kontext, sodass bei Verwendung eines generativen Modells (z. B. eines RNN, das mit Sequenzen trainiert wurde, die gültige oder interessante Beweise liefern) statistisch ansprechender, aber bedeutungsloser Müll entstehen kann.

Was Sie brauchen, ist ein Organisationsprinzip, mit dem Sie Beweise auf kombinatorische Weise untersuchen und bestätigen können. Tatsächlich wurde so etwas wie Ihre Idee bereits mehrmals umgesetzt, aber ich kann derzeit keine Referenz finden.

Nichts davon hindert Sie daran, ein neuronales Netzwerk in einer KI zu verwenden, das nach Beweisen sucht. Es kann Stellen innerhalb einer mathematischen KI geben, an denen Sie eine gute Heuristik benötigen, um beispielsweise Suchvorgänge zu leiten - z. B. in einem Kontext, in dem X unterbewiesen ist, dass Y wahrscheinlich interessant oder relevant ist. Eine Wahrscheinlichkeitsbewertung der Beurteilung ist etwas , dass ein neuronales Netz als Teil eines breiteren AI Schema tun können. Das ist vergleichbar mit der Kombination von neuronalen Netzen und Verstärkungslernen.

Es kann im Prinzip möglich sein, Ihre Idee vollständig aus neuronalen Netzen aufzubauen. Schließlich gibt es gute Gründe für den Verdacht, dass das menschliche Denken auf ähnliche Weise mit biologischen Neuronen funktioniert (nicht bewiesen, dass künstliche Neuronen so oder so funktionieren können). Die Architektur eines solchen Systems geht jedoch über ein modernes NN-Design oder einen Trainingsaufbau hinaus. Es wird definitiv nicht darum gehen, nur genügend Ebenen hinzuzufügen und dann Daten einzugeben.

Neil Slater
quelle
Max sucht kein Werkzeug. Er begann mit "Stellen Sie sich vor, ich habe eine Liste aller Probleme und Beweise" in der Frage vor der Bearbeitung. "Die exzessive Bearbeitung hat dieses erste Wort versteckt. Er denkt über Machbarkeit nach, was eine legitime Forschungstätigkeit ist. Forschung beginnt normalerweise mit Phantasie und Machbarkeit Max ist nicht der einzige, der die Wichtigkeit seiner Frage erkennt. Es gibt Hunderte, die wissen, dass es einen Weg gibt, ein Netzwerk zu trainieren, um Beweise zu erbringen, indem die Anwendung von Inferenzregeln optimiert wird. Gelernte Intuition Hofstadter diskutiert
genau
@FauChristian Ich habe gelesen "ist es möglich", ob es mit derzeit bekannten Techniken erreichbar ist und wie man solche Forschung mit vorhandenen Ansätzen wieder aufnehmen würde. Ich stimme zu, dass es möglich ist, mit einem theoretischeren Blickwinkel zu antworten. Es könnte eine interessante Meta-Frage sein, wie OP den Unterschied kennzeichnen und wie wir die Absicht bestätigen können
Neil Slater,
0

Was wir wissen

Laut einer Seite der Weltbank gibt es heute weltweit rund 200 Millionen Hochschulstudenten, gegenüber 89 Millionen im Jahr 1998. Mindestens 1 von 100 musste als mathematische Voraussetzung einen Beweis für einen Satz entwickeln und lebte mindestens 40 Jahre danach.

Obwohl es mindestens 20 Millionen neuronale Netze gibt, die einen Satz beweisen können, fehlen ihnen Beispiele, die diese Frage bejahen würden. Diese neuronalen Netze sind biologisch, nicht künstlich, und sie haben meistens zuvor bewiesene Theoreme bewiesen, nicht die Collatz-Vermutung oder die Riemann-Vermutung.

Was manche glauben

Diejenigen, die glauben, dass tiefgreifendes Q-Lernen und auf Aufmerksamkeit basierende Geräte durch andere Lernsystemdesigns ergänzt werden, bis die Fähigkeiten des menschlichen Gehirns simuliert und möglicherweise übertroffen sind, würden wahrscheinlich den Satz als eine dieser menschlichen Fähigkeiten beweisen. Diese erklären wahrscheinlich Prädikatenlogik und Inferenz als eine weitere komplexe kognitive Funktion, die in künstlichen Systemen erreicht wird.

Diejenigen, die glauben, dass einige Fähigkeiten in Menschen eingebettet sind und reservierte Fähigkeiten sind, können Prädikatenlogik und Folgerung als für Menschen allein reserviert deklarieren.

Aktueller Stand der Arbeiten

Es gibt keine akademischen Artikel, die die Fähigkeit aufzeigen, selbst die einfachsten Beweise unter Verwendung von Prädikatenlogik und Inferenz zu beweisen. Es ist möglich, dass eine Regierung oder ein privates Unternehmen dabei gewisse Erfolge erzielt hat, diese wurden jedoch nicht bekannt gegeben.

Die Idee, dass künstliche Netzwerke, wenn sie spürbar entwickelt werden, Produktionssysteme, KI-Systeme, die auf Produktionen oder Regeln basieren, in ihren Bereichen mit der größten Wirksamkeit übertreffen könnten, wurde schon früh in der Entwicklung der KI vorgeschlagen. Es war damals und heute umstritten, die Argumente sind jedoch nicht mathematisch, so dass es keinen eindeutigen Hinweis darauf gibt, dass dies unmöglich ist.

Gewiss sind andere kognitive Aspekte des menschlichen Denkens wichtige Ziele der KI-Forschung. Dialog, automatisierte Schulung, Planung, strategische Analyse und Fahrzeugsteuerung sind Aspekte höherer Gedanken, die mehr erfordern, als DQN und aufmerksamkeitsorientierte Netzwerkansätze bieten können. Die Forschungsbemühungen in diesen Bereichen sind jedoch beachtlich und gut finanziert.

Möglicher Ansatz

Die Erforschung logischer kognitiver Fähigkeiten sollte mit Beweisen beginnen, die bereits bekannt sind und die viel einfacher sind als die in der Frage genannten Vermutungen. Zum Beispiel wurde bewiesen, dass die Summe zweier nicht negativer Ganzzahlen eine andere nicht negative Ganzzahl sein muss. In der Prädikatenrechnung kann dies als Zeichenfolge dargestellt werden.

einC,bC:s=ein+bsC

Es heißt, dass a und b Mitglieder der Menge der Zählzahlen sind und dass das s, definiert als die Summe der beiden, auch Mitglied der Menge der Zählzahlen sein muss. Sein Beweis kann auch als Folge von Zeichenketten der Prädikatenrechnung erster Ordnung dargestellt werden.

Kein kleines Forschungsprojekt

Ein solches Beispiel mag für jemanden einfach erscheinen, der jahrelange Mathematikkurse belegt und Beweise erstellt hat. Für ein Kind ist es nicht einfach, und es ist sehr schwierig, ein künstliches Netzwerk dazu zu bringen, zu einer Funktion zu konvergieren, die alle Regeln der logischen Folgerung anwendet und Metaregeln enthält, um zu einem Beweis für ein formales System wie die Ganzzahlarithmetik zu gelangen.

Das Aufbauen kompletter Netzwerke wie RNNs hat sicherlich Vorteile gegenüber MLPs (Multilayer Perceptrons). Aufmerksamkeitsbasierte Netzwerke können eine sinnvolle Forschungsoption sein. In den nachstehenden Referenzen sind weitere angegeben.

Für die Forschung wäre eine parallele Rechenplattform erforderlich, da der Eingabevektor Hunderte von KB betragen kann. Die Größe der Beispiele und deren Anzahl ist schwer abzuschätzen, ohne dass ein oder zwei Jahre in den Forschungsprozess einfließen.

Die Definition der Zählzahlen, des Pluszeichens und des Gleichheitszeichens muss zuerst definiert werden, und diese Definitionen und eine Reihe von Axiomen, Postulaten, Lemmas und Korollarien müssen Teil des Eingabebeispiels in der formalen Form sein, wie der Vorschlag sein soll bewiesen, zusammen mit diesem Vorschlag.

Und das ist die Arbeit, um nur ein Beispiel vorzubereiten. Sie brauchen Tausende, um intuitives Wissen über die Inferenzregeln in einem tiefen Netzwerk zu trainieren. (Ich habe das Wort INTUITIV aus theoretischen Gründen gewählt, die mindestens hundert Seiten benötigen, um es gut zu erklären.)

Dies ist kein kleines Projekt, da der Beispieldatensatz mindestens einige tausend Fälle umfassen muss und jeder Fall, auch wenn er eine gewisse Theorie aufweist, so aufgebaut sein muss, dass der Vorschlag perfekt formuliert ist und der erforderliche theoretische Teil ebenfalls vorgestellt wird in perfekter Form am Eingang für jede Trainingsiteration.

Ich vermute, dass ein Team kluger Forscher mit dem entsprechenden Verständnis von tiefen Netzwerken, Konvergenz und Prädikatkalkül etwa zehn Jahre benötigen würde, um ein Netzwerk so zu trainieren, dass es als Reaktion auf einfache mathematische Vorschläge brauchbare Beweise liefert.

Aber es wäre keine kleine Leistung

Für manche mag das absurd erscheinen, aber es wäre das erste Mal, dass jemand einem Computer beigebracht wird, wie man logisch ist. Es bedurfte der Natur, um einem Organismus, Sokrates, den logischen Schluss zu ziehen.

Die Leute gehen davon aus, dass Computer logisch sind, weil ein Computer aus digitalen Schaltkreisen besteht, die logisch sind. Jeder, der sich seit Jahrzehnten mit Softwareentwicklung beschäftigt und dazu neigt, tiefer zu denken als zum Spaß oder für Geld zu hacken, weiß es anders. Auch nach sorgfältiger Programmierung simulieren Computer keine logischen Schlussfolgerungen und können ihr selbst programmiertes Verhalten nicht für einen beliebigen Fehler korrigieren. Tatsächlich besteht der größte Teil der Softwareentwicklung heutzutage aus der Behebung von Fehlern.

Die Simulation des logischen Denkens wäre ein wichtiger Schritt zur Simulation der Erkenntnis und des breiteren Spektrums menschlicher Fähigkeiten.


Verweise

Lernen, neuronale Netze für die Beantwortung von Fragen zu komponieren Jacob Andreas, Marcus Rohrbach, Trevor Darrell und Dan Klein UC, Berkeley 2016 https://arxiv.org/pdf/1601.01705.pdf

Erlernen mehrerer Repräsentationsebenen Geoffrey E. Hinton Institut für Informatik, Universität Toronto 2007 http://www.csri.utoronto.ca/~hinton/absps/ticsdraft.pdf

Neuronale Turingmaschine (Diashow) Autor: Alex Graves, Greg Wayne, Ivo Danihelka Präsentiert von: Tinghui Wang (Steve) https://eecs.wsu.edu/~cook/aiseminar/papers/steve.pdf

Neuronale Turingmaschinen (Papier) Alex Graves, Greg Wayne, Ivo Danihelka https://pdfs.semanticscholar.org/c112/6fbffd6b8547a44c58b192b36b08b18299de.pdf 2014

Reinforcement Learning, Neuronale Turingmaschinen Wojciech Zaremba, Ilya Sutskever ICLR-Konferenzbeitrag https://arxiv.org/pdf/1505.00521.pdf?utm_content=buffer2aaa3&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer 2016

Dynamische neuronale Turingmaschine mit kontinuierlichen und diskreten Adressierungsschemata Caglar Gulcehre1, Sarath Chandar1, Kyunghyun Cho2, Yoshua Bengio1 https://arxiv.org/pdf/1607.00036.pdf 2017

Ein online selbstkonstruierendes neuronales Fuzzy-, Inferenznetzwerk und seine Anwendungen Chia-Feng Juang- und Chin-Teng Lin IEEE-Transaktionen auf Fuzzy-Systemen, v6, n1 1998 https://ir.nctu.edu.tw/bitstream/11536/ 32809/1 / 000072774800002.pdf

Gated Graph Sequence Neuronale Netze Yujia Li und Richard Zemel ICLR Konferenzpapier 2016 https://arxiv.org/pdf/1511.05493.pdf

Maschinen bauen, die wie Menschen lernen und denken Brenden M. Lake, Tomer D. Ullman, Joshua B. Tenenbaum und Samuel J. Gershman Verhaltens- und Gehirnwissenschaften 2016 https://arxiv.org/pdf/1604.00289.pdf

Kontextabhängige vortrainierte tiefe neuronale Netze für die Spracherkennung mit großem Wortschatz George E. Dahl, Dong Yu, Li Deng und Alex Acero IEEE-Transaktionen für Audio-, Sprach- und Sprachverarbeitung 2012 https://s3.amazonaws.com/ academia.edu.documents / 34691735 / dbn4lvcsr-transaslp.pdf? AWSAccessKeyId = AKIAIWOWYYGZ2Y53UL3A & Expires = 1534211789 & Signature = 33QcFP0JGFeA

Einbettung von Entitäten und Beziehungen für Lernen und Inferenz in Wissensdatenbanken Bishan Yang1, Wen-tau Yih2, Xiaodong He2, Jianfeng Gao2 und Li Deng2 ICLR-Konferenzpapier 2015 https://arxiv.org/pdf/1412.6575.pdf

Ein schneller Lernalgorithmus für Deep Belief Nets Geoffrey E. Hinton, Simon Osindero, Yee-Whye Teh (mitgeteilt von Yann Le Cun) Neural Computation 18 2006 http://axon.cs.byu.edu/Dan/778/papers/Deep % 20Networks / hinton1 * .pdf

FINN: Ein Framework für schnelle, skalierbare binarisierte Inferenz neuronaler Netze Yaman Umuroglu et al., 2016 https://arxiv.org/pdf/1612.07119.pdf

Vom maschinellen Lernen zum maschinellen Denken Léon Bottou 08.02.2011 https://arxiv.org/pdf/1102.1808.pdf

Deep Learning Yann LeCun1,2, Yoshua Bengio3 & Geoffrey Hinton4,5 Nature Vol. 521 2015 https://www.evl.uic.edu/creativecoding/courses/cs523/slides/week3/DeepLearning_LeCun.pdf

Douglas Daseeco
quelle
-1

Es ist möglich, aber wahrscheinlich keine gute Idee.

Der logische Beweis ist einer der ältesten Bereiche der KI, und es gibt speziell entwickelte Techniken, die nicht trainiert werden müssen und die zuverlässiger sind als ein Ansatz mit neuronalen Netzen, da sie nicht auf statistischen Überlegungen beruhen Verwenden Sie stattdessen den Freund des Mathematikers: deduktives Denken.

Das Hauptgebiet heißt " Automated Theorem Proving " und ist alt genug, um als Forschungsgebiet ein wenig verkalkt zu sein. Es gibt nicht viele Neuerungen, aber einige arbeiten noch daran.

Die Grundidee ist, dass der Beweis des Theorems nur eine klassische oder heuristisch geführte Suche ist: Sie gehen von einem Zustand aus, der aus einer Reihe akzeptierter Prämissen besteht. Anschließend wenden Sie eine gültige logische Inferenzregel an, um neue Prämissen zu generieren, die ebenfalls wahr sein müssen, und erweitern so Ihren Wissensbestand. Schließlich können Sie eine gewünschte Prämisse nachweisen, entweder durch Aufzählungssuchen wie Breitensuche oder iterative Vertiefung oder durch etwas wie A * mit einer domänenspezifischen Heuristik. Viele Löser verwenden auch nur eine logische Regel ( Vereinheitlichung ), da diese vollständig ist und den Verzweigungsfaktor der Suche verringert.

John Doucette
quelle
Der Mangel an Mitarbeitern, die noch daran arbeiten, kann die Ursache für mangelnde Innovation sein. Wir sollten Max nicht so schnell davon abbringen, zumal die automatisierten Theorembeweise in den Anfängen von LISP nicht das breitere Spektrum der derzeit verfügbaren Techniken anwendeten. Warum? Dies ist, worüber ich in dem anderen Kommentar gesprochen habe. Die Leute des Produktionssystems interagierten nicht viel mit den Perceptron-Leuten. Es gab Beleidigungen, aber die beteiligten Universitäten haben sie aus der Öffentlichkeit entfernt.
FauChristian