Forschungsarbeiten zum maschinellen Lernen behandeln Lernen und Inferenz oft als zwei getrennte Aufgaben, aber es ist mir nicht ganz klar, worin der Unterschied besteht. In diesem Buch verwenden sie zum Beispiel Bayes-Statistiken für beide Arten von Aufgaben, liefern jedoch keine Motivation für diese Unterscheidung. Ich habe einige vage Ideen, worum es gehen könnte, aber ich würde gerne eine solide Definition und vielleicht auch Widerlegungen oder Erweiterungen meiner Ideen sehen:
- Der Unterschied zwischen dem Ableiten der Werte latenter Variablen für einen bestimmten Datenpunkt und dem Lernen eines geeigneten Modells für die Daten.
- Der Unterschied zwischen dem Extrahieren von Varianzen (Inferenz) und dem Lernen der Invarianzen, um Varianzen extrahieren zu können (durch Lernen der Dynamik des Eingaberaums / Prozesses / der Welt).
- Die neurowissenschaftliche Analogie könnte eine kurzfristige Potenzierung / Depression (Gedächtnisspuren) gegenüber einer langfristigen Potenzierung / Depression sein.
machine-learning
terminology
Lenar Hoyt
quelle
quelle
Antworten:
Ich stimme Neil Gs Antwort zu, aber vielleicht hilft diese alternative Formulierung auch:
Betrachten Sie die Einstellung eines einfachen Gaußschen Mischungsmodells. Hier können wir uns die Modellparameter als die Menge der Gaußschen Komponenten des Mischungsmodells vorstellen (jede ihrer Mittelwerte und Varianzen und das Gewicht jeder einzelnen Person in der Mischung).
Bei einer gegebenen Menge von Modellparametern besteht die Schlussfolgerung darin, welche Komponente wahrscheinlich ein einzelnes gegebenes Beispiel erzeugt hat, üblicherweise in Form einer "Verantwortung" für jede Komponente. Hier sind die latenten Variablen nur die einzige Kennung, für die die Komponente den angegebenen Vektor generiert hat, und wir schließen daraus, welche Komponente dies wahrscheinlich gewesen ist. (In diesem Fall ist die Folgerung einfach, in komplexeren Modellen wird sie jedoch ziemlich kompliziert.)
Beim Lernen werden anhand einer Reihe von Stichproben aus dem Modell die Modellparameter (oder eine Verteilung über Modellparameter) ermittelt, die am besten zu den angegebenen Daten passen: Auswahl der Gaußschen Mittelwerte, Varianzen und Gewichtungen.
Man kann sich vorstellen, dass der Lernalgorithmus "Expectation-Maximization" eine Inferenz für den Trainingssatz durchführt, dann die besten Parameter unter Berücksichtigung dieser Inferenz lernt und dann wiederholt. Inferenz wird häufig im Lernprozess auf diese Weise verwendet, aber es ist auch von unabhängigem Interesse, z. B. zu wählen, welche Komponente einen bestimmten Datenpunkt in einem Gaußschen Mischungsmodell erzeugt hat, um den wahrscheinlichsten verborgenen Zustand in einem verborgenen Markov-Modell zu bestimmen. fehlende Werte in einem allgemeineren grafischen Modell zu unterstellen, ....
quelle
Inference wählt eine Konfiguration basierend auf einer einzelnen Eingabe. Lernen ist die Auswahl von Parametern anhand einiger Trainingsbeispiele.
In dem energiebasierten Modellrahmen (eine Art und Weise an nahezu alle Maschinenbetrachtungslernarchitekturen) Inferenz wählt eine Konfiguration eine zu minimieren Energiefunktion während der Halteparameter festgelegt; Das Lernen wählt die Parameter, um die Verlustfunktion zu minimieren .
Wie Conjugateprior betont, verwenden andere Leute unterschiedliche Begriffe für die gleiche Sache. Zum Beispiel verwendet Bischof "Schlußfolgerung" und "Entscheidung", um Lernen bzw. Schlußfolgerung zu bedeuten. Kausaler Rückschluss bedeutet Lernen. Unabhängig davon, für welche Begriffe Sie sich entscheiden, unterscheiden sich diese beiden Konzepte.
Die neurologische Analogie ist ein Muster, bei dem Neuronen ausgelöst werden. Eine Reihe von Verbindungsstärken sind die Parameter.
quelle
Das sieht nach klassischer disziplinenübergreifender Jargonverwirrung aus. Das OP scheint eine neurowissenschaftliche Terminologie zu verwenden, bei der die beiden fraglichen Begriffe unterschiedliche Konnotationen haben können. Da sich Cross Validated im Allgemeinen mit Statistik und Maching Learning befasst, werde ich versuchen, die Frage zu beantworten, die auf der allgemeinen Verwendung dieser Begriffe in diesen Bereichen basiert.
In der klassischen Statistik ist Inferenz einfach das Entnehmen des Wissens über eine Stichprobe und eine mathematische Aussage über die Population, aus der sie (hoffentlich) repräsentativ ist. Aus dem kanonischen Lehrbuch von Casella & Berger (2002): "Das Thema der Wahrscheinlichkeitstheorie ist die Grundlage, auf der alle Statistiken aufbauen. Durch diese Modelle können Statistiker Rückschlüsse auf Populationen ziehen, die nur auf der Untersuchung von Rückschlüssen beruhen ein Teil des Ganzen ". In der Statistik bezieht sich die Inferenz speziell auf p-Werte, Teststatistiken und Stichprobenverteilungen usw.
Was das Lernen angeht, denke ich, dass diese Tabelle aus Wassermans All of Statistics (2003) hilfreich sein könnte:
quelle
Es ist seltsam, dass dies von niemand anderem erwähnt wurde, aber Sie können nur dann Rückschlüsse ziehen, wenn Sie eine Wahrscheinlichkeitsverteilung haben. Hier, um Wiki zu zitieren, das Oxford Dictionary zitiert:
Statistische Inferenz ist der Prozess der Verwendung von Datenanalyse, um Eigenschaften einer zugrunde liegenden Wahrscheinlichkeitsverteilung abzuleiten (Oxford Dictionary of Statistics).
https://en.wikipedia.org/wiki/Statistical_inference
Bei herkömmlichen neuronalen Netzen, k-NN- oder Vanille-SVMs gibt es weder eine Wahrscheinlichkeitsdichte, die geschätzt werden kann, noch Annahmen zu einer Dichte, sodass dort keine statistischen Rückschlüsse möglich sind. Nur Training / Lernen. Für die meisten (alle?) Statistischen Verfahren können Sie jedoch sowohl Inferenz- als auch Lernverfahren verwenden, da diese Verfahren einige Annahmen über die Verteilung der betreffenden Population enthalten.
quelle