Stand der Technik im Allgemeinen Lernen aus Daten in '69

16

Ich versuche den Kontext des berühmten Buches "Perceptrons" von Minsky und Papert aus dem Jahr 1969 zu verstehen, der für neuronale Netze so wichtig ist.

Soweit ich weiß, gab es außer Perceptron noch keine anderen generischen überwachten Lernalgorithmen: Entscheidungsbäume wurden erst Ende der 70er Jahre wirklich nützlich, Zufallswälder und SVMs sind 90er Jahre. Es scheint, dass die Jackknife-Methode bereits bekannt war, nicht jedoch die K-Cross-Validierung (70er Jahre) oder das Bootstrap (1979?).

Laut Wikipedia waren sich die klassischen statistischen Rahmenbedingungen von Neyman-Pearson und Fisher in den 50er Jahren noch uneinig, obwohl die ersten Versuche, eine Hybridtheorie zu beschreiben, bereits in den 40er Jahren unternommen wurden.

Daher meine Frage: Was waren die neuesten Methoden zur Lösung allgemeiner Probleme bei der Vorhersage aus Daten?

Liori
quelle
6
Die Nutzung der logistischen Regression begann Ende der 70er Jahre, so wie sie heute ist. Siehe Cramer, JS (2002). "Die Ursprünge der logistischen Regression", p. 12, papers.tinbergen.nl/02119.pdf
Tim
Die lineare Regression ist wahrscheinlich ein "generischer beaufsichtigter Lernalgorithmus" und wurde in den frühen 1800er Jahren entwickelt. Die Probit-Regression, zumindest in irgendeiner Form, entstand anscheinend in den 1930er Jahren . Meinen Sie hier etwas Besonderes mit "generisch"?
Dougal
@Dougal: nur "als anwendbar für eine große Anzahl von Problemen in verschiedenen Bereichen befunden", im Gegensatz zu "zur Lösung eines bestimmten Problems entwickelt". Ich versuche zu verstehen, welche Methoden ein Statistiker oder ein KI-Wissenschaftler in den 60er Jahren anwenden würde, wenn er sich einem neuen unbekannten Problem ohne vorherige Arbeit gegenübersieht, wenn der einfachste Ansatz (wie ich vermute, lineare Regression?) Nicht funktioniert und deshalb ist die suche nach komplexeren werkzeugen gerechtfertigt. Zufällige Gesamtstruktur ist heute einer dieser Algorithmen: Sie funktionieren ziemlich gut mit zahlreichen Datensätzen aus verschiedenen Bereichen.
Liori
Ja sicher. Es ist vielleicht erwähnenswert, dass die Probit-Regression tatsächlich wahrscheinlich ein besseres Allzweck-Klassifizierungsmodell ist als die ursprünglichen Perzeptrone. Ob es damals als solches verwendet wurde, weiß ich nicht. Perceptrons galten damals als anders, weil sie mit einem SGD-ähnlichen Optimierungsalgorithmus gebündelt waren, der sie wahrscheinlich für Computer der damaligen Zeit skalierbarer als möglich machte, obwohl wir heute natürlich feststellen, dass diese Entscheidungen unabhängig voneinander sind.
Dougal
1
Für alle, die sich hier noch für das Thema interessieren: Ich habe eine interessante Studie aus dem Bereich der Wissenschaftssoziologie zum Thema der Perzeptron-Kontroversen in den 60er Jahren gefunden: Olazaran, "Official History of the Perceptrons Controversy". Der Text beantwortet nicht die hier gestellte Frage, sondern liefert den soziologischen Kontext für das Buch von Minsky und Papert - einer, der mir jetzt wichtiger erscheint als der tatsächliche Stand der Wissenschaft.
Liori

Antworten:

12

Ich war neugierig und grub ein bisschen. Ich war überrascht, dass erkennbare Versionen vieler gängiger Klassifizierungsalgorithmen bereits ab 1969 zur Verfügung standen. Links und Zitate sind unten angegeben.

Es ist erwähnenswert, dass sich die KI-Forschung nicht immer so auf die Klassifizierung konzentrierte. Es gab großes Interesse an Planung und symbolischem Denken, die nicht mehr aktuell sind, und beschriftete Daten waren viel schwerer zu finden. Damals waren möglicherweise auch nicht alle diese Artikel allgemein verfügbar: Beispielsweise wurde die Proto-SVM-Arbeit größtenteils in russischer Sprache veröffentlicht. Dies könnte also überschätzen, wie viel ein durchschnittlicher Wissenschaftler 1969 über die Klassifizierung wusste.


Diskriminanzanalyse

In einem Artikel aus dem Jahr 1936 in den Annals of Eugenics beschrieb Fisher ein Verfahren zum Auffinden einer linearen Funktion, die drei Arten von Irisblumen aufgrund ihrer Blütenblatt- und Kelchblattdimensionen unterscheidet. In diesem Aufsatz wird erwähnt, dass Fisher bereits in Zusammenarbeit mit E. S. Martin und Karl Pearson ( jstor ) sowie in einem separaten Schädelmessungsprojekt eine ähnliche Technik angewendet hatte, um das Geschlecht von in Ägypten ausgegrabenen menschlichen Unterkiefern (Kieferknochen) vorherzusagen mit einer Miss Mildred Barnard (die ich nicht finden konnte).

Logistische Regression

Die logistische Funktion selbst ist seit dem 19. Jahrhundert bekannt, dient jedoch hauptsächlich als Modell für Sättigungsprozesse wie das Bevölkerungswachstum oder biochemische Reaktionen. Tim verlinkt auf den obigen Artikel von JS Cramer, der eine schöne Geschichte seiner Anfänge darstellt. Bis 1969 hatte Cox jedoch die erste Ausgabe von Analysis of Binary Data veröffentlicht . Ich konnte das Original nicht finden, aber eine spätere Ausgabe enthält ein ganzes Kapitel über die Verwendung der logistischen Regression zur Klassifizierung. Beispielsweise:

y=0,1xyy

k

kk

Neuronale Netze

Rosenblatt veröffentlicht einen technischen Bericht der perceptron 1957 beschreibt und folgte ihm mit auf einem Buch , Principles of Neurodynamik in 1962. Kontinuierliche Versionen von Backpropagation sind seit den frühen 1960er Jahren um, einschließlich der Arbeit von Kelley , Bryson, und Bryson & Ho (überarbeitet 1975, aber das Original stammt aus dem Jahr 1969. Es wurde jedoch erst etwas später auf neuronale Netze angewendet, und Methoden zum Trainieren sehr tiefer Netze sind viel aktueller. Dieser wissenschaftliche Artikel über tiefes Lernen enthält weitere Informationen.

Statistische Methoden

Ich vermute, dass die Verwendung der Bayes-Regel für die Klassifizierung viele Male entdeckt und wiederentdeckt wurde - es ist eine ziemlich natürliche Folge der Regel selbst. Die Signalerkennungstheorie entwickelte einen quantitativen Rahmen, um zu entscheiden, ob eine bestimmte Eingabe ein "Signal" oder ein Rauschen ist. Ein Teil davon stammt aus der Radarforschung nach dem Zweiten Weltkrieg, wurde jedoch schnell für Wahrnehmungsexperimente angepasst (z. B. von Green und Swets ). Ich weiß nicht, wer entdeckt hat, dass die Annahme der Unabhängigkeit zwischen Prädiktoren gut funktioniert, aber die Arbeit aus den frühen 1970er Jahren scheint diese Idee ausgenutzt zu haben, wie in diesem Artikel zusammengefasst . Übrigens weist dieser Artikel auch darauf hin, dass Naive Bayes einst "Idiot Bayes" genannt wurde!

Support-Vektor-Maschinen

1962 beschrieben Vapnik und Chervonenkis den "Generalized Portrait Algorithm" ( schrecklicher Scan, sorry ), der wie ein Sonderfall einer Support-Vektor-Maschine (oder eigentlich einer Ein-Klassen-SVM) aussieht. Chervonenkis hat einen Artikel mit dem Titel "Frühe Geschichte der Support Vector Machines" verfasst, in dem dies und ihre Folgearbeiten ausführlicher beschrieben werden. Der Kernel Trick (Kern als innere Produkte) wurde im Jahr 1964 von Aizerman, Braverman und Rozonoer beschrieben svms.org hat ein bisschen mehr über die Geschichte der Support - Vektor - Maschinen hier .

Matt Krause
quelle
2
Die Zeitreihenanalyse löste auch einige interessante Probleme. ARMA- und Kalman-Filter haben in den 50er und 60er Jahren gute Laufleistungen erbracht.
EngrStudent
1
Interessant! Ich weiß nicht annähernd so viel darüber oder über seine Geschichte, aber ich würde gerne eine Antwort positiv bewerten, wenn Sie eine schreiben würden!
Matt Krause
3

HAFTUNGSAUSSCHLUSS : Diese Antwort ist unvollständig, aber ich habe momentan keine Zeit, sie zu aktualisieren . Ich hoffe, dass ich später in dieser Woche daran arbeiten kann.


Frage:
Was waren die neuesten Methoden zur Lösung von Gattungsproblemen bei der Vorhersage von Daten um 1969?

Hinweis: Dies wird die hervorragende Antwort von 'Matt Krause' nicht wiederholen.

"State of the Art" bedeutet "am besten und modernsten", aber nicht unbedingt auf die Praxis als Industrienorm reduziert. Im Gegensatz dazu sucht das US-Patentrecht nach "nicht offensichtlich", wie es vom "Durchschnittsfachmann" definiert wird. Der "Stand der Technik" von 1969 dürfte im nächsten Jahrzehnt zum Patent angemeldet worden sein.

Es ist sehr wahrscheinlich, dass die "besten und hellsten" Ansätze von 1969 für die Verwendung in ECHELON (1) (2) verwendet oder evaluiert wurden . Es wird auch in der Bewertung der anderen, recht mathematisch fähigen Supermacht der Ära, der UdSSR, gezeigt. (3) Ich brauche mehrere Jahre, um einen Satelliten herzustellen, und so würde man auch erwarten, dass die Technologie oder der Inhalt für die nächsten ~ 5 Jahre Kommunikations-, Telemetrie- oder Aufklärungssatelliten den Stand der Technik von 1969 zeigen. Ein Beispiel ist Der Wettersatellit Meteor-2 wurde 1967 gestartet und 1971 fertiggestellt. (4) Das spektrometrische und aktinometrische Nutzlast-Engineering wird durch die Datenverarbeitungsfähigkeiten des Tages und durch die geplante "zeitnahe" Datenverarbeitung der Zeit bestimmt. Die Verarbeitung dieser Art von Daten ist der Ort, an dem nach Best Practices für diesen Zeitraum gesucht werden kann.

Eine Durchsicht des "Journal of Optimization Theory and Applications" hatte mehrere Jahre Bestand und ist inhaltlich zugänglich. (5) Betrachten Sie diese (6) Bewertung der optimalen Schätzer und diese für rekursive Schätzer. (7)

Das SETI-Projekt, das in den 1970er Jahren gestartet wurde, verwendete wahrscheinlich Technologien und Techniken mit niedrigerem Budget, die älter waren als die damalige Technologie. Die Erforschung der frühen SETI-Techniken kann auch auf das hindeuten, was um 1969 als führend angesehen wurde. Ein wahrscheinlicher Kandidat ist der Vorläufer des " Koffer-SETI ". Das "Koffer-SETI" verwendete DSP, um Autokorrelationsempfänger in ~ 130k Schmalbandkanälen zu bauen. Die SETI-Leute wollten vor allem Spektrumanalysen durchführen. Der Ansatz wurde erstmals offline zur Verarbeitung von Aricebo-Daten verwendet. Es wurde später 1978 mit dem Aricebo-Radioteleskop verbunden, um Live-Daten zu erhalten, und die Ergebnisse wurden im selben Jahr veröffentlicht . Das eigentliche Suitecase-SETI wurde 1982 fertiggestellt. Hier (link) ist ein Blockdiagramm, das den Prozess zeigt.

Der Ansatz bestand darin, Offline-Long-Fourier-Transformationen (~ 64k-Abtastwerte) zu verwenden, um Bandbreitensegmente zu durchsuchen, einschließlich der Behandlung von Chirp und der Echtzeitkompensation für die Doppler-Verschiebung. Der Ansatz ist "nicht neu", und es wurden Verweise bereitgestellt, darunter:

A. G. W. Cameron, Ed., 
In- terstellar Communication 
(Benjamin, New York,1963); 

I. S. Shklovskii and C. Sagan, 
In-telligent Life in the Universe 
(Holden-Day, San Francisco, 1966); 

C. Sagan, Ed., 
Communication with Extraterrestrial Intelligence 
(MIT Press, Cambridge, Mass., 1973); 
P. Morrison, J.

B. M. Oliver and J. Billingham, 
"Project Cyclops: A Design Study of a System for Detecting Extraterrestrial Intelligent Life," 
NASA Contract. Rep. CR114445 (1973). 

Zu den Tools, die für die Vorhersage des nächsten Zustands in Anbetracht des vorherigen Zustands verwendet wurden, gehörten:

  • Kalman (und abgeleitete) Filter (Weiner, Bucy, nichtlinear ...)
  • Zeitreihen (und abgeleitete) Methoden
  • Frequenzbereichsmethoden (Fourier) einschließlich Filterung und Verstärkung

Zu den gebräuchlichen "Schlüsselwörtern" (oder Schlagworten) gehören "adjoint, variational, gradient, optimal, zweiter Ordnung und konjugiert".

Die Prämisse eines Kalman-Filters ist die optimale Vermischung realer Daten mit einem analytischen und prädiktiven Modell. Sie wurden verwendet, um Dinge wie Raketen auf ein sich bewegendes Ziel zu schießen.

EngrStudent
quelle
Vielen Dank, dass Sie das geschrieben haben - ich mag den anwendungsorientierten Ansatz, den Sie gewählt haben!
Matt Krause
@MattKrause - Ich muss noch ein bisschen hineinstecken. Ich nahm an, dass der anwendungsorientierte Ansatz in diesem Fall der "Archäologie der Mathematik" dienen würde. Wir werden sehen. Die Arbeit bringt mich dazu, ein "Koffer-SETI" zu bauen und es zu verwenden, um in meiner menschlichen Umgebung nach Leben zu sehen, nur um eine Vorstellung davon zu bekommen, was die Werkzeuge von 50 Jahren taten.
EngrStudent - Wiedereinsetzung von Monica