Ich habe das Deep Learning-Buch gelesen und bin auf folgenden Absatz gestoßen (Seite 109, zweiter Absatz):
Die Trainings- und Testdaten werden durch eine Wahrscheinlichkeitsverteilung über Datensätze generiert, die als Datengenerierungsprozess bezeichnet wird. Wir machen normalerweise eine Reihe von Annahmen, die zusammen als iid-Annahmen bekannt sind. Diese Annahmen bestehen darin, dass die Beispiele in jedem Datensatz unabhängig voneinander sind und dass der Trainingssatz und der Testsatz identisch verteilt sind und aus derselben Wahrscheinlichkeitsverteilung stammen. Diese Annahme ermöglicht es uns, den Datenerzeugungsprozess mit einer Wahrscheinlichkeitsverteilung über ein einzelnes Beispiel zu beschreiben. Die gleiche Verteilung wird dann verwendet, um jedes Zugbeispiel und jedes Testbeispiel zu erzeugen. Wir nennen diese gemeinsame zugrunde liegende Verteilung die datengenerierende Verteilung, die mit. Dieser probabilistische Rahmen und die iid-Annahmen ermöglichen es uns, die Beziehung zwischen Trainingsfehler und Testfehler mathematisch zu untersuchen.
Kann mir bitte jemand die Bedeutung dieses Absatzes erklären?
Auf Seite 122 des letzten Absatzes finden Sie auch ein Beispiel
eine Menge von Proben , die unabhängig und identisch gemäß einer Bernoulli-Verteilung mit dem Mittelwert .
Was bedeutet das?
Hier sind einige spezifischere Fragen.
Die Wahrscheinlichkeitsverteilung über Datensätze: Was sind die Datensätze? Wie wird die Wahrscheinlichkeitsverteilung erzeugt?
Die Beispiele sind unabhängig voneinander. Können Sie mir ein Beispiel geben, wo die Beispiele abhängig sind?
Gezeichnet aus der gleichen Wahrscheinlichkeitsverteilung. Angenommen, die Wahrscheinlichkeitsverteilung ist Gaußsch. Bedeutet der Begriff "Gleiche Wahrscheinlichkeitsverteilung", dass alle Beispiele aus einer Gaußschen Verteilung mit demselben Mittelwert und derselben Varianz stammen?
"Diese Annahme ermöglicht es uns". Was bedeutet das?
Schließlich wird für den letzten Absatz von Seite 122 angegeben, dass die Proben der Bernoulli-Verteilung folgen. Was bedeutet das intuitiv?
quelle
Antworten:
Sobald wir die zugrunde liegenden Verteilungen der Eingabedaten schätzen können, wissen wir im Wesentlichen, wie sie ausgewählt werden, und können gute Vorhersagen treffen. (generatives Modell). Normalerweise können wir eine zugrunde liegende Verteilung gemäß unserer Annahme annehmen (induktive Vorspannung). Wenn wir zum Beispiel glauben, dass es eine hohe Wahrscheinlichkeit gibt, dass Werte nahe Null sind, können wir eine Gaußsche Verteilung mit dem Mittelwert und die Parameter wie die Varianz abstimmen, wenn wir trainieren. Datensätze bestehen beispielsweise aus allen Münzwürfen, und die angenommene Verteilung ist binomisch. Wenn wir sagen, dass die Log-Wahrscheinlichkeit für die tatsächlichen Datenpunkte maximiert wird, erhalten wir die Parameter, mit denen der Datensatz in die angenommene Verteilung passt.0
Zum Beispiel werfen wir eine Münze und wenn wir einen Kopf haben, werfen wir eine andere, sonst nicht. Hier besteht eine Abhängigkeit zwischen nachfolgenden Würfen
Ja. Deshalb wird (4) gesagt. Sobald Sie eine Wahrscheinlichkeitsverteilung aus einem Beispiel haben, benötigen Sie keine weiteren Beispiele, um den Datengenerierungsprozess zu beschreiben.
Dies bedeutet, dass jedes Beispiel als Münzwurf betrachtet werden kann. Wenn das Experiment mehrere Münzwürfe wäre, würde jeder Münzwurf unabhängig sein, mit einer Wahrscheinlichkeit, dass der Kopf . Wenn Sie ein anderes Experiment auswählen, kann das Ergebnis jedes Beispiels als Münzwurf oder n-dimensionaler Würfel betrachtet werden.12
Das Generieren von Beispielen bedeutet, eine Verteilung zu erhalten, die dem am nächsten kommt, was wir im Datensatz für das Training sehen. Dies wird erreicht, indem eine Verteilung angenommen und die Wahrscheinlichkeit des gegebenen Datensatzes maximiert und die optimalen Parameter ausgegeben werden.
quelle