Ich soll den Squared Exponential Kernel (SE) für die Gaußsche Prozessregression verwenden. Die Vorteile dieses Kernels sind: 1) einfach: nur 3 Hyperparameter; 2) glatt: Dieser Kernel ist Gaußsch.
Warum mögen die Leute "Glätte" so sehr? Ich weiß, dass der Gaußsche Kern unendlich differenzierbar ist, aber ist das so wichtig? (Bitte lassen Sie mich wissen, wenn es andere Gründe gibt, warum der SE-Kernel so beliebt ist.)
PS: Mir wurde gesagt, dass die meisten Signale in der realen Welt (ohne Rauschen) glatt sind , daher ist es sinnvoll, glatte Kernel zu verwenden, um sie zu modellieren. Könnte mir bitte jemand helfen, dieses Konzept zu verstehen?
machine-learning
Kakanana
quelle
quelle
Antworten:
" Natura non facit saltus " ist ein altes Prinzip in der Philosophie. Auch Schönheit und Harmonie sind solche Prinzipien. Ein weiteres philosophisches Prinzip, das sich auf die Statistik auswirkt, ist das qualitative Denken: Traditionell denken wir nicht in Effektgrößen, sondern ob ein Effekt vorhanden ist oder nicht. Dies ließ Hypothesentests zu. Schätzer sind zu präzise für Ihre Wahrnehmung der Natur. Nimm es so wie es ist.
Statistik muss der menschlichen Wahrnehmung dienen. Diskontinuitätspunkte werden also nicht gemocht. Man würde sofort fragen: Warum genau ist das eine Diskontinuität? Insbesondere bei der Dichteschätzung sind diese Diskontinuitätspunkte hauptsächlich auf die nicht asymptotische Natur realer Daten zurückzuführen. Sie möchten jedoch nicht etwas über Ihre bestimmte endliche Stichprobe erfahren, sondern über die zugrunde liegende natürliche Tatsache. Wenn Sie glauben, dass diese Natur nicht springt, brauchen Sie reibungslose Schätzer.
Aus rein mathematischer Sicht gibt es kaum einen Grund dafür. Seit Leibniz und Newton Naturphänomene bekannt wurden, sind diese auch nicht glatt. Sprechen Sie mit dem Naturwissenschaftler, für den Sie arbeiten. Fordern Sie seine Sicht auf Glätte / Diskontinuität heraus und tun Sie dann, was Sie beide als hilfreich für sein Verständnis eingestuft haben.
quelle
Es gibt zwei weitere Gründe für praktische Fragen. Die erste ist, dass analytische Funktionen mathematisch viel einfacher zu bearbeiten sind und daher Theoreme über Ihre Algorithmen beweisen und ihnen eine stärkere Grundlage geben.
quelle
Je nach Problem gibt es viele Motivationen. Die Idee ist jedoch dieselbe: Fügen Sie a priori Kenntnisse über ein Problem hinzu, um eine bessere Lösung zu erzielen und die Komplexität zu bewältigen. Ein weiterer Ausdruck ist: Modellauswahl. Hier ein schönes Beispiel zur Modellauswahl .
Eine andere Idee, die eng damit verbunden ist, besteht darin, ein Ähnlichkeitsmaß für Datenstichproben zu finden (es gibt verschiedene Begriffe, die sich auf diese Idee beziehen: topografische Abbildungen, Entfernungsmetrik, vielfältiges Lernen, ...).
Betrachten wir nun ein praktisches Beispiel: die optische Zeichenerkennung. Wenn Sie das Bild eines Zeichens aufnehmen, erwarten Sie, dass der Klassifizierer sich mit Invarianzen befasst: Wenn Sie das Bild drehen, verschieben oder skalieren, sollte es es erkennen können. Wenn Sie eine Änderung geringfügig auf die Eingabe anwenden, erwarten Sie auch, dass die Antwort / das Verhalten Ihres Klassifikators ebenfalls geringfügig variiert, da beide Beispiele (das Original und das geänderte Beispiel) sehr ähnlich sind. Hier kommt die Durchsetzung der Glätte ins Spiel.
Es gibt eine Fülle von Arbeiten, die sich mit dieser Idee befassen, aber diese (Transformationsinvarianz bei Mustererkennung, Tangentenabstand und Tangentenausbreitung, Simard et al.) Veranschaulicht diese Ideen sehr detailliert
quelle