Wenn ja, was? Wenn nein, warum nicht?
Für eine Stichprobe auf der Linie minimiert der Median die absolute Gesamtabweichung. Es erscheint natürlich, die Definition auf R2 usw. zu erweitern, aber ich habe es nie gesehen. Aber dann bin ich schon lange im linken Feld unterwegs.
multivariate-analysis
spatial
median
phv3773
quelle
quelle
Antworten:
Ich bin nicht sicher, ob es eine akzeptierte Definition für einen multivariaten Median gibt. Die, mit der ich vertraut bin, ist Medianpunkt von Oja , der die Summe der über Teilmengen von Punkten gebildeten Volumina von Vereinfachungen minimiert. (Siehe den Link für eine technische Definition.)
Update: Die Site, auf die für die obige Oja-Definition verwiesen wird, enthält auch ein nützliches Dokument mit einer Reihe von Definitionen eines multivariaten Medians:
quelle
Wie @Ars sagte, gibt es keine akzeptierte Definition (und das ist ein guter Punkt). Es gibt allgemeine Alternativen, wie man Quantile auf verallgemeinern kann. Ich denke, die wichtigsten sind:Rd
Verallgemeinern des Quantilprozesses Sei das empirische Maß (= der Anteil der Beobachtungen in A ). Dann können Sie mit A, einer gut gewählten Teilmenge der Borel-Mengen in R d und λ, einem reellen Messwert, die empirische Quantilfunktion definieren:Pn(A) A A Rd λ
Angenommen, Sie finden ein , das Ihnen das Minimum gibt. Dann ist die Menge (oder ein Element des Satzes) A 1 / 2 - ε ∩ A 1 / 2 + ε gibt Ihnen den Median , wenn ε klein genug gemacht wird. Die Definition des Medians ergibt sich aus A = ( ] - ∞ , x ] x ∈ R ) und λ ( ] - ∞ , x ] ) = x . ArsAt A1/2−ϵ∩A1/2+ϵ ϵ A=(]−∞,x]x∈R) λ(]−∞,x])=x Die Antwort fällt in dieses Gerüst. Ich schätze, die halbe Raumposition von Tukey kann mit und λ ( H x ) = x (mit x ∈ R , a ∈ R d ).A(a)=(Hx=(t∈Rd:⟨a,t⟩≤x) λ(Hx)=x x∈R a∈Rd
Variationsdefinition und M-Schätzung Die Idee dabei ist, dass das Quantil Q α einer Zufallsvariablen Y in R durch eine Variationsgleichung definiert werden kann.α Qα Y R
Die allgemeinste Definition ist die Verwendung von Quantil - Regressionsfunktion (auch bekannt als Pinball Verlust, erraten , warum?) Q α = a r g inf x ∈ R E [ & rgr; α ( Y - x ) ] . Der Fall α = 1 / 2 ergibt & rgr; 1 / 2 ( y ) = | y | und Sie können dies mit l 1 auf eine höhere Dimension verallgemeinernρα Qα=arginfx∈RE[ρα(Y−x)] α=1/2 ρ1/2(y)=|y| l1 Entfernungen wie in @Srikant Answer angegeben . Dies ist der theoretische Median, aber Sie erhalten einen empirischen Median, wenn Sie die Erwartung durch die empirische Erwartung (Mittelwert) ersetzen.
Aber Kolshinskii schlägt Legendre-Transformation Fenchel zu verwenden: Da wobei f ( s ) = 1Qα=Argsups(sα−f(s)) fürs∈R. Dafür gibt er viele tiefe Gründe an (siehe die Zeitung;)). Verallgemeinertdies auf höhere Dimensionen erfordernZusammenarbeit mit einem vektoriellenαund ersetztsαdurch⟨s,α⟩Sie können jedoch nehmenα=(1/2,...,1/2).f(s)=12E[|s−Y|−|Y|+s] s∈R α sα ⟨s,α⟩ α=(1/2,…,1/2)
Offensichtlich gibt es Brücken zwischen den verschiedenen Formulierungen. Sie sind nicht alle offensichtlich ...
quelle
Es gibt verschiedene Möglichkeiten, das Konzept des Medians auf höhere Dimensionen zu verallgemeinern. Eine noch nicht erwähnte, aber vor langer Zeit vorgeschlagene Methode besteht darin, einen konvexen Rumpf zu konstruieren, ihn abzuziehen und so lange wie möglich zu iterieren. Mediane. "
"Head-Banging" ist ein weiterer neuerer Versuch (um 1980), ein robustes Zentrum für eine 2D-Punktwolke zu konstruieren. (Der Link führt zu Dokumentation und Software, die beim US National Cancer Institute erhältlich sind.)
Der Hauptgrund, warum es mehrere verschiedene Verallgemeinerungen gibt und keine offensichtliche Lösung ist, dass R1 geordnet werden kann, R2, R3, ... jedoch nicht.
quelle
Der geometrische Median ist der Punkt mit dem kleinsten durchschnittlichen euklidischen Abstand von den Proben
quelle
Der Tukey-Halbraum-Median kann mit DEEPLOC, einem Algorithmus nach Struyf und Rousseeuw, auf> 2 Dimensionen erweitert werden. siehe hier für weitere Einzelheiten.
Der Algorithmus wird verwendet, um den Punkt der größten Tiefe effizient zu approximieren. naive Methoden, die versuchen, dies genau zu bestimmen, verstoßen normalerweise gegen (die rechnerische Version von) "den Fluch der Dimensionalität", wobei die zur Berechnung einer Statistik erforderliche Laufzeit exponentiell mit der Anzahl der Dimensionen des Raums wächst.
quelle
Eine Definition, die für unimodale Verteilungen nahe kommt, ist der Tukey-Halbraum-Median
quelle
Ich weiß nicht, ob eine solche Definition existiert, aber ich werde versuchen, die Standarddefinition des Medians auf . Ich werde die folgende Notation verwenden:R2
, Y : Die Zufallsvariablen, die den beiden Dimensionen zugeordnet sind.X Y
, m y : die entsprechenden Mediane.mx my
Um die Definition des Medians auf , wählen wir m x und m y, um Folgendes zu minimieren:R2 mx my
Das Problem ist jetzt, dass wir eine Definition für das brauchen, was wir meinen mit:
Das Obige ist in gewissem Sinne eine Entfernungsmetrik und es sind mehrere mögliche Kandidatendefinitionen möglich.
Eucliedan Metric
Taxicab Metric
quelle