Ich versuche den Kontext des berühmten Buches "Perceptrons" von Minsky und Papert aus dem Jahr 1969 zu verstehen, der für neuronale Netze so wichtig ist.
Soweit ich weiß, gab es außer Perceptron noch keine anderen generischen überwachten Lernalgorithmen: Entscheidungsbäume wurden erst Ende der 70er Jahre wirklich nützlich, Zufallswälder und SVMs sind 90er Jahre. Es scheint, dass die Jackknife-Methode bereits bekannt war, nicht jedoch die K-Cross-Validierung (70er Jahre) oder das Bootstrap (1979?).
Laut Wikipedia waren sich die klassischen statistischen Rahmenbedingungen von Neyman-Pearson und Fisher in den 50er Jahren noch uneinig, obwohl die ersten Versuche, eine Hybridtheorie zu beschreiben, bereits in den 40er Jahren unternommen wurden.
Daher meine Frage: Was waren die neuesten Methoden zur Lösung allgemeiner Probleme bei der Vorhersage aus Daten?
Antworten:
Ich war neugierig und grub ein bisschen. Ich war überrascht, dass erkennbare Versionen vieler gängiger Klassifizierungsalgorithmen bereits ab 1969 zur Verfügung standen. Links und Zitate sind unten angegeben.
Es ist erwähnenswert, dass sich die KI-Forschung nicht immer so auf die Klassifizierung konzentrierte. Es gab großes Interesse an Planung und symbolischem Denken, die nicht mehr aktuell sind, und beschriftete Daten waren viel schwerer zu finden. Damals waren möglicherweise auch nicht alle diese Artikel allgemein verfügbar: Beispielsweise wurde die Proto-SVM-Arbeit größtenteils in russischer Sprache veröffentlicht. Dies könnte also überschätzen, wie viel ein durchschnittlicher Wissenschaftler 1969 über die Klassifizierung wusste.
Diskriminanzanalyse
In einem Artikel aus dem Jahr 1936 in den Annals of Eugenics beschrieb Fisher ein Verfahren zum Auffinden einer linearen Funktion, die drei Arten von Irisblumen aufgrund ihrer Blütenblatt- und Kelchblattdimensionen unterscheidet. In diesem Aufsatz wird erwähnt, dass Fisher bereits in Zusammenarbeit mit E. S. Martin und Karl Pearson ( jstor ) sowie in einem separaten Schädelmessungsprojekt eine ähnliche Technik angewendet hatte, um das Geschlecht von in Ägypten ausgegrabenen menschlichen Unterkiefern (Kieferknochen) vorherzusagen mit einer Miss Mildred Barnard (die ich nicht finden konnte).
Logistische Regression
Die logistische Funktion selbst ist seit dem 19. Jahrhundert bekannt, dient jedoch hauptsächlich als Modell für Sättigungsprozesse wie das Bevölkerungswachstum oder biochemische Reaktionen. Tim verlinkt auf den obigen Artikel von JS Cramer, der eine schöne Geschichte seiner Anfänge darstellt. Bis 1969 hatte Cox jedoch die erste Ausgabe von Analysis of Binary Data veröffentlicht . Ich konnte das Original nicht finden, aber eine spätere Ausgabe enthält ein ganzes Kapitel über die Verwendung der logistischen Regression zur Klassifizierung. Beispielsweise:
Neuronale Netze
Rosenblatt veröffentlicht einen technischen Bericht der perceptron 1957 beschreibt und folgte ihm mit auf einem Buch , Principles of Neurodynamik in 1962. Kontinuierliche Versionen von Backpropagation sind seit den frühen 1960er Jahren um, einschließlich der Arbeit von Kelley , Bryson, und Bryson & Ho (überarbeitet 1975, aber das Original stammt aus dem Jahr 1969. Es wurde jedoch erst etwas später auf neuronale Netze angewendet, und Methoden zum Trainieren sehr tiefer Netze sind viel aktueller. Dieser wissenschaftliche Artikel über tiefes Lernen enthält weitere Informationen.
Statistische Methoden
Ich vermute, dass die Verwendung der Bayes-Regel für die Klassifizierung viele Male entdeckt und wiederentdeckt wurde - es ist eine ziemlich natürliche Folge der Regel selbst. Die Signalerkennungstheorie entwickelte einen quantitativen Rahmen, um zu entscheiden, ob eine bestimmte Eingabe ein "Signal" oder ein Rauschen ist. Ein Teil davon stammt aus der Radarforschung nach dem Zweiten Weltkrieg, wurde jedoch schnell für Wahrnehmungsexperimente angepasst (z. B. von Green und Swets ). Ich weiß nicht, wer entdeckt hat, dass die Annahme der Unabhängigkeit zwischen Prädiktoren gut funktioniert, aber die Arbeit aus den frühen 1970er Jahren scheint diese Idee ausgenutzt zu haben, wie in diesem Artikel zusammengefasst . Übrigens weist dieser Artikel auch darauf hin, dass Naive Bayes einst "Idiot Bayes" genannt wurde!
Support-Vektor-Maschinen
1962 beschrieben Vapnik und Chervonenkis den "Generalized Portrait Algorithm" ( schrecklicher Scan, sorry ), der wie ein Sonderfall einer Support-Vektor-Maschine (oder eigentlich einer Ein-Klassen-SVM) aussieht. Chervonenkis hat einen Artikel mit dem Titel "Frühe Geschichte der Support Vector Machines" verfasst, in dem dies und ihre Folgearbeiten ausführlicher beschrieben werden. Der Kernel Trick (Kern als innere Produkte) wurde im Jahr 1964 von Aizerman, Braverman und Rozonoer beschrieben svms.org hat ein bisschen mehr über die Geschichte der Support - Vektor - Maschinen hier .
quelle
HAFTUNGSAUSSCHLUSS : Diese Antwort ist unvollständig, aber ich habe momentan keine Zeit, sie zu aktualisieren . Ich hoffe, dass ich später in dieser Woche daran arbeiten kann.
Frage:
Was waren die neuesten Methoden zur Lösung von Gattungsproblemen bei der Vorhersage von Daten um 1969?
Hinweis: Dies wird die hervorragende Antwort von 'Matt Krause' nicht wiederholen.
"State of the Art" bedeutet "am besten und modernsten", aber nicht unbedingt auf die Praxis als Industrienorm reduziert. Im Gegensatz dazu sucht das US-Patentrecht nach "nicht offensichtlich", wie es vom "Durchschnittsfachmann" definiert wird. Der "Stand der Technik" von 1969 dürfte im nächsten Jahrzehnt zum Patent angemeldet worden sein.
Es ist sehr wahrscheinlich, dass die "besten und hellsten" Ansätze von 1969 für die Verwendung in ECHELON (1) (2) verwendet oder evaluiert wurden . Es wird auch in der Bewertung der anderen, recht mathematisch fähigen Supermacht der Ära, der UdSSR, gezeigt. (3) Ich brauche mehrere Jahre, um einen Satelliten herzustellen, und so würde man auch erwarten, dass die Technologie oder der Inhalt für die nächsten ~ 5 Jahre Kommunikations-, Telemetrie- oder Aufklärungssatelliten den Stand der Technik von 1969 zeigen. Ein Beispiel ist Der Wettersatellit Meteor-2 wurde 1967 gestartet und 1971 fertiggestellt. (4) Das spektrometrische und aktinometrische Nutzlast-Engineering wird durch die Datenverarbeitungsfähigkeiten des Tages und durch die geplante "zeitnahe" Datenverarbeitung der Zeit bestimmt. Die Verarbeitung dieser Art von Daten ist der Ort, an dem nach Best Practices für diesen Zeitraum gesucht werden kann.
Eine Durchsicht des "Journal of Optimization Theory and Applications" hatte mehrere Jahre Bestand und ist inhaltlich zugänglich. (5) Betrachten Sie diese (6) Bewertung der optimalen Schätzer und diese für rekursive Schätzer. (7)
Das SETI-Projekt, das in den 1970er Jahren gestartet wurde, verwendete wahrscheinlich Technologien und Techniken mit niedrigerem Budget, die älter waren als die damalige Technologie. Die Erforschung der frühen SETI-Techniken kann auch auf das hindeuten, was um 1969 als führend angesehen wurde. Ein wahrscheinlicher Kandidat ist der Vorläufer des " Koffer-SETI ". Das "Koffer-SETI" verwendete DSP, um Autokorrelationsempfänger in ~ 130k Schmalbandkanälen zu bauen. Die SETI-Leute wollten vor allem Spektrumanalysen durchführen. Der Ansatz wurde erstmals offline zur Verarbeitung von Aricebo-Daten verwendet. Es wurde später 1978 mit dem Aricebo-Radioteleskop verbunden, um Live-Daten zu erhalten, und die Ergebnisse wurden im selben Jahr veröffentlicht . Das eigentliche Suitecase-SETI wurde 1982 fertiggestellt. Hier (link) ist ein Blockdiagramm, das den Prozess zeigt.
Der Ansatz bestand darin, Offline-Long-Fourier-Transformationen (~ 64k-Abtastwerte) zu verwenden, um Bandbreitensegmente zu durchsuchen, einschließlich der Behandlung von Chirp und der Echtzeitkompensation für die Doppler-Verschiebung. Der Ansatz ist "nicht neu", und es wurden Verweise bereitgestellt, darunter:
Zu den Tools, die für die Vorhersage des nächsten Zustands in Anbetracht des vorherigen Zustands verwendet wurden, gehörten:
Zu den gebräuchlichen "Schlüsselwörtern" (oder Schlagworten) gehören "adjoint, variational, gradient, optimal, zweiter Ordnung und konjugiert".
Die Prämisse eines Kalman-Filters ist die optimale Vermischung realer Daten mit einem analytischen und prädiktiven Modell. Sie wurden verwendet, um Dinge wie Raketen auf ein sich bewegendes Ziel zu schießen.
quelle