Erklären Sie die Bedeutung und den Zweck der L2-Normalisierung

13

Lassen Sie mich zu Beginn sagen, dass ich sehr neu im maschinellen Lernen bin und nicht besonders gut in Mathe. Ich verstehe, was TF-IDF macht, aber in dem Buch, das ich lese, wird auch Folgendes erwähnt (es wird diskutiert, wie Scikit-Lernen Dinge macht):

Beide Klassen [TfidfTransformer und TfidfVectorizer] wenden nach Berechnung der tf-idf-Darstellung auch die L2-Normalisierung an. Mit anderen Worten, sie skalieren die Darstellung jedes Dokuments neu, um die euklidische Norm 1 zu erhalten. Eine Neuskalierung auf diese Weise bedeutet, dass die Länge eines Dokuments (die Anzahl der Wörter) die vektorisierte Darstellung nicht ändert.

Das ist alles, was es zu diesem Thema zu sagen hat. Ich denke, es bedeutet, und lassen Sie mich wissen, wenn ich falsch liege, dass wir die Werte so skalieren, dass der Wert 1 wäre, wenn sie alle quadriert und summiert würden (ich habe diese Definition von http://kawahara.ca übernommen / wie man Vektoren zu Einheitsnorm in Python normalisiert / ).

Die Idee ist also, dass die Merkmalswerte proportional zueinander werden. Ich bin mir jedoch nicht ganz sicher, wie das für das Modell hilfreich wäre. Hilft es dem Gesamtklassifizierer zu lernen, wenn einige Beispiele keine höhere Gesamtzahl an "aktivierten Funktionen" aufweisen als andere?

Hier ist auch eine grundlegende Frage: Hat die L2-Normalisierung etwas mit der L2-Regularisierung zu tun? Vielleicht ist es nur so, dass beide Begriffe quadrieren und summieren?

Welchen Einblick Sie auch teilen können, wir würden uns sehr freuen!

Stephen
quelle

Antworten:

19

Wir skalieren die Werte so, dass der Wert 1 wäre, wenn sie alle quadriert und summiert würden

Das ist richtig.

Ich bin mir jedoch nicht ganz sicher, wie das für das Modell hilfreich wäre

Stellen Sie sich einen einfacheren Fall vor, in dem wir nur zählen, wie oft jedes Wort in jedem Dokument vorkommt. In diesem Fall können zwei Dokumente einfach deshalb unterschiedlich aussehen, weil sie unterschiedlich lang sind (das längere Dokument enthält mehr Wörter). Wir sind jedoch mehr an der Bedeutung des Dokuments interessiert , und die Länge trägt nicht dazu bei. Durch das Normalisieren können wir die Häufigkeit von Wörtern relativ zueinander berücksichtigen und gleichzeitig den Effekt der Gesamtwortzahl entfernen.

Hat die L2-Normalisierung etwas mit der L2-Regularisierung zu tun?

Die L2-Regularisierung arbeitet mit den Parametern eines Modells, während die L2-Normalisierung (in dem Kontext, nach dem Sie fragen) mit der Darstellung der Daten arbeitet. Sie sind in keinem sinnvollen Sinne verwandt, abgesehen von der oberflächlichen Tatsache, dass beide die Berechnung von L2-Normen erfordern (Summieren von quadratischen Begriffen, wie Sie sagen).

Beachten Sie jedoch, dass die L2-Normalisierung eine generische Operation ist und in Kontexten angewendet werden kann, die über den von Ihnen gewünschten hinausgehen. Es gibt Situationen, in denen man eine Verbindung zwischen den beiden Konzepten herstellen könnte, aber ich denke, das geht über den Rahmen dieser Frage hinaus.

user20160
quelle