In Elements of Statistical Learning wird ein Problem eingeführt, um Probleme mit k-nn in hochdimensionalen Räumen hervorzuheben. Es gibt Datenpunkte, die gleichmäßig in einer dimensionalen Einheitskugel verteilt sind.
Der mittlere Abstand vom Ursprung zum nächsten Datenpunkt wird durch den Ausdruck angegeben:
Wenn , zerfällt die Formel auf den halben Radius des Balls, und ich kann sehen, wie sich der nächstgelegene Punkt der Grenze als nähert , wodurch die Intuition hinter knn in hohen Dimensionen zusammenbricht. Aber ich kann nicht verstehen, warum die Formel von N abhängt. Könnte jemand bitte klarstellen?
Das Buch geht auch weiter auf dieses Problem ein, indem es erklärt: "... die Vorhersage ist in der Nähe der Ränder der Trainingsprobe viel schwieriger. Man muss von benachbarten Probenpunkten extrapolieren, anstatt zwischen ihnen zu interpolieren." Dies scheint eine tiefgreifende Aussage zu sein, aber ich kann nicht verstehen, was es bedeutet. Könnte jemand umformulieren?
quelle
Antworten:
Das Volumen eines dimensionalen Hyperballs mit dem Radius r hat ein Volumen proportional zu r p .p r rp
Der Anteil des Volumens, der größer als ein Abstand vom Ursprung ist, ist also r p - ( k r ) pkr .rp−(kr)prp=1−kp
Die Wahrscheinlichkeit , dass alle zufällig ausgewählte Punkte sind mehr als ein Abstand k r vom Ursprung ( 1 - k p ) N . Um den Medianabstand zum nächsten zufälligen Punkt zu erhalten, setzen Sie diese Wahrscheinlichkeit auf 1N kr (1−kp)N . Also(1-kp)N=112
Intuitiv macht dies Sinn: Je mehr zufällige Punkte vorhanden sind, desto näher erwarten Sie, dass der Punkt dem Ursprung am nächsten liegt. Sie sollten also erwarten, dass eine abnehmende Funktion von N ist . Hier ist 2 1 / N eine abnehmende Funktion von N , also 1k N 21/N N ist eine zunehmende Funktion vonNund damit1-1121/N N ist eine abnehmende Funktion vonN,ebenso wie seinep-te Wurzel.1−121/N N p
quelle
Und jetzt ohne Handbewegung
Für jede Folge von iid rvs ist wobei F die gemeinsame CDF ist
Wenn also iid X i in der Einheitskugel in p- Dimensionen gleichmäßig verteilt hat , dann ist P ( min 1 ≤ i ≤ N | | X i | | > r ) = ( 1 - F ( r ) ) N , wobei F ist die gemeinsame CDF der Entfernungen, | | X i | | , i = 1 , 2 ,N Xi p
Also die Lösung zu
ist
quelle
So prägnant aber in Worten:
quelle