Die Frage, die ich stellen möchte, lautet: Wie ändert sich der Anteil der Stichproben innerhalb von 1 SD des Mittelwerts einer Normalverteilung, wenn die Anzahl der Variablen zunimmt?
(Fast) jeder weiß, dass in einer eindimensionalen Normalverteilung 68% der Proben innerhalb einer Standardabweichung vom Mittelwert gefunden werden können. Was ist mit 2, 3, 4, ... Dimensionen? Ich weiß, es wird weniger ... aber um wie viel (genau)? Es wäre praktisch, eine Tabelle mit den Zahlen für 1, 2, 3 ... 10 Dimensionen sowie 1, 2, 3 ... 10 SDs zu haben. Kann jemand auf eine solche Tabelle verweisen?
Ein bisschen mehr Kontext - Ich habe einen Sensor, der Daten auf bis zu 128 Kanälen liefert. Jeder Kanal ist (unabhängigen) elektrischen Störungen ausgesetzt. Wenn ich ein Kalibrierungsobjekt wahrnehme, kann ich eine ausreichende Anzahl von Messungen mitteln und einen Mittelwert über die 128 Kanäle sowie 128 einzelne Standardabweichungen erhalten.
ABER ... wenn es um die einzelnen Momentanablesungen geht, antworten die Daten nicht so sehr wie bei 128 Einzelablesungen, sondern wie bei einer einzelnen Ablesung einer (bis zu) 128-dimensionalen Vektorgröße. Dies ist sicherlich die beste Methode, um die wenigen kritischen Messwerte zu behandeln (normalerweise 4-6 von 128).
Ich möchte ein Gefühl dafür bekommen, was "normale" Variation ist und was "Ausreißer" in diesem Vektorraum ist. Ich bin mir sicher, dass ich einen Tisch wie den von mir beschriebenen gesehen habe, der auf diese Art von Situation zutrifft - kann jemand auf einen zeigen?
Antworten:
Nehmen wir : Jedes X i ist normal N ( 0 , 1 ) und das X i ist unabhängig - ich denke, das ist, was Sie mit höheren Dimensionen meinen.X= ( X1, … , Xd) ∼ N( 0 , ich) Xich N( 0 , 1 ) Xich
Man würde sagen, dass innerhalb von 1 sd des Mittelwerts liegt, wenn | | X | | < 1 (der Abstand zwischen X und seinem Mittelwert ist kleiner als 1). Jetzt | | X | | 2 = X 2 1 + ⋯ + X 2 d ∼ χ 2 ( d ), also geschieht dies mit der Wahrscheinlichkeit P ( ξ < 1 ), wobei ξ ∼ χ 2 ( d )X ||X||<1 ||X||2=X21+⋯+X2d∼χ2(d) P(ξ<1) ξ∼χ2(d) . Sie können dies in guten Chi-Quadrat-Tischen finden ...
Hier sind einige Werte:
Und für 2 sd:
Sie können diese Werte in R mit commads wie erhalten
pchisq(1,df=1:10)
,pchisq(4,df=1:10)
usw.Post Scriptum Wie Kardinal in den Kommentaren betont hat, kann man das asymptotische Verhalten dieser Wahrscheinlichkeiten abschätzen. Die CDF einer -Variablen ist F d ( x ) = P ( d / 2 , x / 2 ) = γ ( d / 2 , x / 2 )χ2(d)
wobeiγ(s,y)=∫y0ts-1e-tdtist dieunvollständigeγ-functionund classicalyΓ(n)=∫∞0ts-1e-tdt.
quelle