Was ist ein "Kernel" im Klartext?

73

Es gibt verschiedene Verwendungszwecke:

  • Schätzung der Kerndichte
  • Kernel-Trick
  • Kernel-Glättung

Bitte erläutern Sie, was der "Kernel" in ihnen im Klartext in Ihren eigenen Worten bedeutet.

Neil McGuigan
quelle
3
Um nicht unhöflich zu sein, aber ist das nicht eine Frage, die auf Wikipedia und ähnlichen Websites bereits ad nausea beantwortet wurde? Google gab mir die Antwort innerhalb von 15 Sekunden ...
Joris Meys
46
Ich hasse Wikipedia-Antworten für Statistiken. Es gibt weitläufige, symbolische Verwirrungen. Ich suche nach einem Juwel einer Antwort, das die Antwort in einfachem Englisch erklären kann, da ich glaube, dass dies ein tieferes Verständnis zeigt als eine mathematische Gleichung. Es gibt hier viele beliebte "Plain English" -Fragen, und das aus gutem Grund.
Neil McGuigan

Antworten:

39

In der Literatur zu Statistiken (Schätzung der Kerneldichte oder Glättung des Kernels) und zum maschinellen Lernen (Kernelmethoden) wird der Kernel als Maß für die Ähnlichkeit verwendet. Insbesondere definiert die Kernfunktion die Verteilung von Ähnlichkeiten von Punkten um einen gegebenen Punkt . bezeichnet die Ähnlichkeit von Punkt mit einem anderen gegebenen Punkt .x k ( x , y ) x yk(x,.)xk(x,y)xy

Ebenholz1
quelle
Dies ist eine schöne Art, es auszudrücken. Ich frage mich, ob Sie diese Beschreibung verallgemeinern können, um sie auch auf den Kernel der 'Schätzung der Kerneldichte' anzuwenden.
Shabbychef
2
In gewisser Weise ja. Eine Möglichkeit, die Schätzung der Kerneldichte zu verstehen, besteht darin, dass Sie die Dichte eines Punkts aus einer Verteilung als gewichteten Durchschnitt seiner Ähnlichkeiten mit einer Reihe von Punkten aus der Verteilung approximieren. Der Begriff der Ähnlichkeit spielt also auch hier eine Rolle.
Ebenholz1
1
Ich verstehe, dass "Kernel" in der Statistik ursprünglich aus dem Jargon entlehnt ist, der in der Diskussion von Integralgleichungen verwendet wird.
Nick Cox
42

Es scheint mindestens zwei verschiedene Bedeutungen von "Kernel" zu geben: eine, die häufiger in der Statistik verwendet wird; der andere im maschinellen Lernen.

In der Statistik wird "Kernel" am häufigsten für die Schätzung der Kerneldichte und die Glättung des Kernels verwendet .

Eine einfache Erklärung der Kerne bei der Dichteschätzung finden Sie ( hier ).

Beim maschinellen Lernen wird "Kernel" üblicherweise verwendet, um auf den Kernel-Trick Bezug zu nehmen , eine Methode zur Verwendung eines linearen Klassifikators zur Lösung eines nichtlinearen Problems "durch Abbildung der ursprünglichen nichtlinearen Beobachtungen in einen höherdimensionalen Raum".

Eine einfache Visualisierung könnte sein, sich vorzustellen, dass alle Klassen innerhalb des Radius des Ursprungs in einer x, y-Ebene liegen (Klasse : ); und alle der Klasse liegen jenseits des Radius in dieser Ebene (Klasse : ). Es ist kein lineares Trennzeichen möglich, aber ein Kreis mit dem Radius trennt die Daten eindeutig perfekt. Wir können die Daten in einen dreidimensionalen Raum transformieren, indem wir drei neue Variablen , und berechnenr 0 x 2 + y 2 < r 2 1 r 1 x 2 +0r0x2+y2<r21r1 r x 2 y 2 x2+y2>r2rx2y22xy. Die beiden Klassen können nun durch eine Ebene in diesem dreidimensionalen Raum getrennt werden. Die Gleichung dieser optimal trennenden Hyperebene mit und lautet und lässt in diesem Fall . (Wenn der Kreis vom Ursprung auch die optimale Trennungs-Hyperebene in .) Der Kern ist die Zuordnungsfunktion, die den Wert der zweidimensionalen Daten im dreidimensionalen Raum berechnet.z 3 = z1=x2,z2=y2z1+z2=1z3z3z3=2xyz1+z2=1z3z3

In der Mathematik gibt es andere Verwendungen von "Kerneln" , aber diese scheinen die wichtigsten in der Statistik zu sein.

Thylacoleo
quelle
1
Sehr schön! Ich werde Ihr Beispiel mit dem Kreis verwenden, um die Kernel-Methoden zu erklären, da es die beste Visualisierung ist, die ich bisher getroffen habe. Vielen Dank!
Joris Meys,
1
Thylacoleos Beispiel anhand des Kreises zur Erklärung des Kernel-Tricks weiterverfolgen (ich habe nicht genug Reputation, um seiner Antwort direkt einen Kommentar hinzuzufügen). Gab es einen einfachen Tippfehler in der Gleichung für die trennende Hyperebene? und es sollte z1 + z2 = r ^ 2 sein, anstatt z1 + z2 = 1? Oder verstehe ich das falsch? Ich bin damit einverstanden, dass es ein schönes einfaches Beispiel ist, um das Konzept zu veranschaulichen. Vielen Dank. Obwohl die Definition von z3 immer noch ein wenig mysteriös erscheint, spielt es anscheinend für das am Ursprung zentrierte Beispiel keine Rolle.
Alex Blakemore
Ja, da war ein Tippfehler. Danke dafür Alex. Ich lese nicht immer Korrektur :-)
Thylacoleo
1
Das folgende Video wurde von einem anonymen potenziellen Redakteur als "großartige Visualisierung dessen, was Thylacoleo erklärte" vorgeschlagen: youtube.com/watch?v=3liCbRZPrZA
gung
Verwenden wir innere Produkte, um zweidimensionale Daten dreidimensional zuzuordnen?
SmallChess