Was war vor dem PAC-Lernen los?

9

Ich untersuche das PAC-Lernen (Computational Learning Theory) als Anfänger ohne Vorkenntnisse in maschinellem Lernen / KI. Ich untersuche das Modell hauptsächlich aus historischer Sicht.

Das Wichtigste dabei sind natürlich die modellbasierten Ergebnisse. Es gibt genügend Papiere, die diese Ergebnisse dokumentieren. Ich möchte aber auch etwas darüber schreiben, was vor dem PAC-Lernen vor sich ging, um den historischen Kontext zu skizzieren, bis zu dem Valiant mit dem Begriff des PAC-Modells kam.

Bisher dokumentieren keine Papiere / Umfragen dies, und als jemand ohne wirkliche Kenntnisse des maschinellen Lernens ist es schwierig, dies herauszufinden. Ich stelle daher hier diese weiche Frage, weil ich glaube, dass es genügend Experten gibt, die mir dabei helfen können. Referenzen werden sehr geschätzt.

Wenn ich recherchieren und studieren kann, was vor PAC vor sich ging, kann ich besser verstehen, warum die akademische Welt so begeistert von dem PAC-Modell ist, das auch in meiner historischen Arbeit zu dokumentieren ist!

codd
quelle
4
Nicht die gesamte akademische Welt ist vom PAC-Modell begeistert. Einige Leute im maschinellen Lernen mögen es nicht wirklich (besonders die angewandten Leute).
Yuval Filmus

Antworten:

8

Referenzen werden sehr geschätzt.

Von einem Autor wird erwartet, dass er sich zu Beginn seiner Veröffentlichung mit der Frage nach dem Kontext und der Relevanz seiner Ergebnisse befasst. Ich habe gerade die Einführung von "L. Valiant. Eine Theorie des Lernbaren. Mitteilungen der ACM, 27, 1984" überflogen. wieder und fand heraus, dass Valiant Ihre Frage tatsächlich gut abdeckte.

Das Originalpapier von Valiant ist frei verfügbar und nicht allzu schwer zu lesen. (Mit Ausnahme von Abschnitt 7, der nur beweist, dass der Autor auch herausfordernde mathematische Probleme angehen kann, aber nicht viel zum eigentlichen Inhalt des Papiers beiträgt.) Zumindest das Lesen seiner Einführung ist lohnender als das Lesen meiner zu langen Antwort darauf Frage, also schlage ich vor, es wirklich zu versuchen.


Der Rest dieser Antwort versucht, einige Passagen aus der Einleitung zu zitieren, die angeben sollten, ob das Lesen dieser Einleitung die Frage nach dem historischen Kontext beantworten könnte. Beachten Sie jedoch, dass ein Autor das natürliche Vorrecht hat, in Bezug auf solche Fragen voreingenommen zu sein.

... ein solches System wäre zumindest ein sehr guter Anfang. Erstens, wenn man die bekanntesten Beispiele von Systemen untersucht, die vorprogrammiertes Wissen verkörpern, nämlich Expertensysteme wie DENDRAL und MYCIN , wird im Wesentlichen keine logische Notation verwendet, die über den Satzkalkül hinausgeht.

Dies ist eine interessante Information für den Kontext, da die Aussagenrechnung wesentlich schwächer ist als die Prädikativrechnung oder die verschiedenen Systeme der Typentheorie, die heute manchmal verwendet werden. (Seltsamerweise waren Prolog (1972) und ML (1973) unter anderem als Metasprachen für "solche" Expertensysteme gedacht und scheinen, soweit ich sehen kann, über die einfache Aussagenlogik hinauszugehen. Auch das relationale Modell ( 1969) für die Datenbankverwaltung wird behauptet , auf Prädikatenlogik basieren.)

Vielleicht ist die wichtigste technische Entdeckung, die in dem Artikel enthalten ist, dass mit dieser probabilistischen Vorstellung des Lernens hochkonvergentes Lernen für ganze Klassen von Booleschen Funktionen möglich ist. Dies scheint diesen Ansatz von traditionelleren zu unterscheiden, bei denen Lernen als ein Prozess angesehen wird, bei dem eine allgemeine Regel aus Informationen "induziert" wird, die für einen verlässlichen Abzug nicht ausreichen.

Ich stimme hier voll und ganz zu. Es ist wichtig zu erklären, wie Ihre Lösung ein bestimmtes Problem lösen kann und in welchem ​​Sinne es sich um eine Lösung handelt. Andernfalls erhalten Sie nur Theoreme zum "No-Free-Lunch", mit denen Sie eine fehlerhafte Implementierung einer zweifelhaften Heuristik nicht von einer korrekten Implementierung einer geeigneten Heuristik unterscheiden können.

Zusammenfassend versucht dieses Papier, die Grenzen dessen zu untersuchen, was durch die algorithmische Komplexität erlernbar ist. Die Ergebnisse unterscheiden sich von den vielfältigen früheren Arbeiten zum Lernen, da sie versuchen, die drei zuvor genannten Eigenschaften ((1) - (3)) in Einklang zu bringen. Am genauesten an unserem Ansatz ist die induktive Inferenzliteratur [...]. Es gibt eine Vielzahl von Arbeiten zur Mustererkennung und -klassifizierung unter Verwendung statistischer und anderer [...] Werkzeuge. Lernen in verschiedenen weniger formalen Sinnen wurde als Zweig der künstlichen Intelligenz umfassend untersucht.

Die Eigenschaften ((1) - (3)) waren, dass (1) "die Maschinen nachweislich ganze charakterisierbare Klassen von Konzepten lernen können", die (2) "für allgemeines Wissen geeignet und nicht trivial" und (3) "rechnerisch" sind Prozess erfordert nur eine realisierbare (dh polynomielle) Anzahl von Schritten ".

Thomas Klimpel
quelle
4

Die Sprachidentifikation im Grenzbereich ist der erste bekannte Versuch, den Begriff der Lernbarkeit zu erfassen. Es wurde 1967 von Gold eingeführt und ist ein Modell für induktive Inferenz, das das Erlernen von Sprachklassen betrifft.

codd
quelle