Kann jemand aus Hasties ESL-Buch erklären, dass ich 5 Jahre alt bin?

9

Ich arbeite an Hasties ESL-Buch und habe es mit Frage 2.3 schwer. Die Frage lautet wie folgt:

Geben Sie hier die Bildbeschreibung ein

Wir betrachten eine Schätzung des nächsten Nachbarn am Ursprung, und der mittlere Abstand vom Ursprung zum nächsten Datenpunkt wird durch diese Gleichung angegeben. Ich habe keine Ahnung, wo ich anfangen soll, um dies abzuleiten.

Ich weiß, dass die meisten Datenpunkte näher an der Grenze des Probenraums liegen als an jedem anderen Datenpunkt (Fluch der Dimensionalität), aber ich habe Probleme, dies in den Sinn für lineare Algebra / Wahrscheinlichkeit zu übersetzen.

Vielen Dank!

Gary
quelle
4
Was bedeutet "ELI5" im Titel? Wenn Sie diese Gleichung ableiten möchten, müssen Sie mit einem Wahrscheinlichkeitsmodell für Punkte im Ball beginnen: Was ist das für ein Modell? (Bitte verlangen Sie nicht, dass Ihre Leser auf ein Buch oder eine andere Website verweisen, um Ihre Frage zu verstehen.)
whuber
3
@whuber Ich stimme zu - Akronyme sind ein schreckliches Hashing-Schema.
Sycorax sagt Reinstate Monica
14
Du bist fünf Jahre alt. Wir danken Ihnen, dass Sie ESL verstehen wollen, aber Sie müssen warten, bis Sie sechs sind. Es ist ein Buch für große Jungen und Mädchen.
Nick Cox
4
Ein Fünfjähriger könnte zunächst den eindimensionalen Fall betrachten (p = 1). Und wenn das in der Hand ist, nimm es von dort.
Mark L. Stone
3
Wenn wir ELI5 formulieren wollen, was ist dann mit ESL?
Mdewey

Antworten:

15

Sei der Abstand vom Ursprung und sei das Volumen der Einheitshypersphäre in Dimensionen. Dann wird das Volumen in einer Hypersphäre mit dem Radius enthalten istV 0 [ p ] p rrV0[p]pr

V[r]=V0[p]rp

Wenn wir den Bruchteil des in dieser Hypersphäre enthaltenen Volumens bezeichnen lassen und , dannR = r pP=V[r]/V0[p]R=rp

P[R]=R

Wenn die Datenpunkte gleichmäßig innerhalb der Einheitskugel verteilt sind, dann für die obige Formel eine kumulative Verteilungsfunktion (CDF) für . Dies entspricht einer einheitlichen Wahrscheinlichkeitsdichte für über das Einheitsintervall, dh . Wie von Mark Stone in den Kommentaren angedeutet, können wir den dimensionalen Fall auf ein äquivalentes 1D-Problem reduzieren.R R p [ R ] = P ' [ R ] = 1 p0R1RRp[R]=P[R]=1p

Wenn wir nun einen einzelnen Punkt , dann haben wir per Definition einer CDF und . Wenn der kleinste Wert von Punkten ist und die Punkte alle unabhängig sind, ist die CDF für gegeben durch (dies ist ein Standardergebnis der univariaten Extremwerttheorie ).RPr[Rρ]=P[ρ]Pr[Rρ]=1P[ρ]Rminn

Pr[Rminρ]=Pr[Rρ]n=(1ρ)n

Nach Definition des Medians haben wir was wir können schreibe um als was dem gewünschten Ergebnis entspricht.

12=Pr[(Rmin)medR]=(1R)n
(1dp)n=12

BEARBEITEN: Versuch einer Antwort im " ELI5 " -Stil in drei Teilen.

  1. Für den 1D-Fall mit einem einzelnen Punkt ist der Abstand gleichmäßig über , sodass der Median .[0,1]12

  2. In 1D ist die Verteilung für das Minimum über Punkte der erste Fall zur ten Potenz.nn

  3. In Dimensionen ist der Abstand nicht gleichmäßig verteilt, aber ist.prrp

GeoMatt22
quelle
1
Ha ha, ich gab den Kommentar, dass ein 5-Jähriger zunächst den Fall p = 1 betrachten könnte. Ich dachte darüber nach, einen Kommentar hinzuzufügen, dass ein 4-Jähriger nicht nur mit dem Fall p = 1, sondern auch mit n = 1 beginnen könnte. Aber ich dachte, ich würde den 5-Jährigen das herausfinden lassen.
Mark L. Stone
1
Beachten Sie, dass ich bei der Beantwortung der Frage nach der Klärung durch @fcop Folgendes gelesen habe: "Betrachten Sie N Datenpunkte, die gleichmäßig in einer p-dimensionalen Einheitskugel verteilt sind, die am Ursprung zentriert ist. Zeigen Sie, dass der mittlere Abstand vom Ursprung zum Der nächstgelegene Datenpunkt ist gegeben durch ... ". Also eine Einheitskugel in Bezug auf die Norm im dimensionalen Raum. Danach wurde die Frage auf das Original zurückgesetzt, das sich unterscheidet und nicht so klar ist. (Siehe Kommentarkette unter der ursprünglichen Frage.)L2p
GeoMatt22