Ich lese Kevin Murphys Buch: Maschinelles Lernen - Eine probabilistische Perspektive. Im ersten Kapitel erklärt der Autor den Fluch der Dimensionalität und es gibt einen Teil, den ich nicht verstehe. Als Beispiel gibt der Autor an:
Beachten Sie, dass die Eingaben gleichmäßig entlang eines D-dimensionalen Einheitswürfels verteilt sind. Angenommen, wir schätzen die Dichte von Klassenbeschriftungen, indem wir einen Hyperwürfel um x wachsen lassen, bis er den gewünschten Bruchteil der Datenpunkte enthält. Die erwartete Kantenlänge dieses Würfels beträgt e D ( f ) = f 1 .
Es ist die letzte Formel, die ich nicht verstehen kann. Wenn Sie beispielsweise 10% der Punkte abdecken möchten, sollte die Kantenlänge in jeder Dimension 0,1 betragen. Ich weiß, dass meine Argumentation falsch ist, aber ich kann nicht verstehen, warum.
quelle
Antworten:
Das ist genau das unerwartete Verhalten von Entfernungen in hohen Dimensionen. Für 1 Dimension haben Sie das Intervall [0, 1]. 10% der Punkte befinden sich in einem Segment mit einer Länge von 0,1. Aber was passiert, wenn die Dimensionalität des Merkmalsraums zunimmt?
Dieser Ausdruck sagt Ihnen, dass Sie, wenn Sie diese 10% der Punkte für 5 Dimensionen haben möchten, eine Länge für den Würfel von 0,63 in 10 Dimensionen von 0,79 und 0,98 für 100 Dimensionen haben müssen.
Wie Sie sehen, müssen Sie zum Erhöhen der Abmessungen weiter wegschauen, um die gleiche Anzahl von Punkten zu erhalten. Noch mehr sagt Ihnen, dass sich die meisten Punkte an der Grenze des Würfels befinden, wenn die Anzahl der Dimensionen zunimmt. Welches ist unerwartet.
quelle
Ich denke, die Hauptsache ist, dass der Ausdruck
ist am Anfang wirklich sehr, sehr steil. Dies bedeutet, dass die Größe der Kante, die Sie benötigen, um einen bestimmten Bruchteil des Volumens zu erfassen, insbesondere zu Beginn drastisch zunimmt. dh die Kante, die Sie benötigen, wird mit zunehmendem lächerlich groß .D.
Um dies noch deutlicher zu machen, erinnern Sie sich an die Handlung, die Murphy zeigt:
Wenn Sie bemerken, dass für Werte von die Steigung sehr groß ist und daher die Funktion am Anfang sehr steil wächst. Dies kann besser gewürdigt werden, wenn Sie die Ableitung von e D ( f ) nehmen :D > 1 eD.( f)
quelle
Ja, wenn Sie also einen Einheitswürfel oder in Ihrem Fall eine Einheitslinie haben und die Daten gleichmäßig verteilt sind, müssen Sie eine Länge von 0,1 wählen, um 10% der Daten zu erfassen. Wenn Sie nun die Dimensionen vergrößern, nimmt D zu, wodurch die Leistung abnimmt und f kleiner als 1 ist. Wenn D gegen unendlich geht, müssen Sie den gesamten Würfel erfassen, e = 1.
quelle
Ich denke, für kNN spielt die Entfernung eine größere Rolle. Was mit einem (Hyper-) Würfel passiert, ist analog zu dem, was mit dem Abstand zwischen Punkten passiert. Wenn Sie die Anzahl der Dimensionen erhöhen, wächst das Verhältnis zwischen der nächstgelegenen Entfernung und der durchschnittlichen Entfernung. Dies bedeutet, dass der nächstgelegene Punkt fast so weit entfernt ist wie der durchschnittliche Punkt. Dann hat er nur eine geringfügig höhere Vorhersagekraft als der durchschnittliche Punkt. Dieser Artikel erklärt es schön
quelle