Gibt es eine akzeptierte Definition für den Median einer Stichprobe in der Ebene oder Räume höherer Ordnung?

33

Wenn ja, was? Wenn nein, warum nicht?

Für eine Stichprobe auf der Linie minimiert der Median die absolute Gesamtabweichung. Es erscheint natürlich, die Definition auf R2 usw. zu erweitern, aber ich habe es nie gesehen. Aber dann bin ich schon lange im linken Feld unterwegs.

phv3773
quelle

Antworten:

19

Ich bin nicht sicher, ob es eine akzeptierte Definition für einen multivariaten Median gibt. Die, mit der ich vertraut bin, ist Medianpunkt von Oja , der die Summe der über Teilmengen von Punkten gebildeten Volumina von Vereinfachungen minimiert. (Siehe den Link für eine technische Definition.)

Update: Die Site, auf die für die obige Oja-Definition verwiesen wird, enthält auch ein nützliches Dokument mit einer Reihe von Definitionen eines multivariaten Medians:

ars
quelle
1
Netter Hinweis: Danke. Es deckt umfassend alles ab, was hier erwähnt wird.
whuber
Dieselbe
Aditya
15

Wie @Ars sagte, gibt es keine akzeptierte Definition (und das ist ein guter Punkt). Es gibt allgemeine Alternativen, wie man Quantile auf verallgemeinern kann. Ich denke, die wichtigsten sind:Rd

  • Verallgemeinern des Quantilprozesses Sei das empirische Maß (= der Anteil der Beobachtungen in A ). Dann können Sie mit A, einer gut gewählten Teilmenge der Borel-Mengen in R d und λ, einem reellen Messwert, die empirische Quantilfunktion definieren:Pn(A)AARdλ

    Un(t)=inf(λ(A):Pn(A)tAA)

    Angenommen, Sie finden ein , das Ihnen das Minimum gibt. Dann ist die Menge (oder ein Element des Satzes) A 1 / 2 - εA 1 / 2 + ε gibt Ihnen den Median , wenn ε klein genug gemacht wird. Die Definition des Medians ergibt sich aus A = ( ] - , x ] x R ) und λ ( ] - , x ] ) = x . ArsAtA1/2ϵA1/2+ϵϵA=(],x]xR)λ(],x])=xDie Antwort fällt in dieses Gerüst. Ich schätze, die halbe Raumposition von Tukey kann mit und λ ( H x ) = x (mit x R , a R d ).A(a)=(Hx=(tRd:a,tx)λ(Hx)=xxRaRd

  • Variationsdefinition und M-Schätzung Die Idee dabei ist, dass das Quantil Q α einer Zufallsvariablen Y in R durch eine Variationsgleichung definiert werden kann.αQαYR

    • Die allgemeinste Definition ist die Verwendung von Quantil - Regressionsfunktion (auch bekannt als Pinball Verlust, erraten , warum?) Q α = a r g inf x R E [ & rgr; α ( Y - x ) ] . Der Fall α = 1 / 2 ergibt & rgr; 1 / 2 ( y ) = | y | und Sie können dies mit l 1 auf eine höhere Dimension verallgemeinernραQα=arginfxRE[ρα(Yx)]α=1/2ρ1/2(y)=|y|l1Entfernungen wie in @Srikant Answer angegeben . Dies ist der theoretische Median, aber Sie erhalten einen empirischen Median, wenn Sie die Erwartung durch die empirische Erwartung (Mittelwert) ersetzen.

    • Aber Kolshinskii schlägt Legendre-Transformation Fenchel zu verwenden: Da wobei f ( s ) = 1Qα=Argsups(sαf(s))fürsR. Dafür gibt er viele tiefe Gründe an (siehe die Zeitung;)). Verallgemeinertdies auf höhere Dimensionen erfordernZusammenarbeit mit einem vektoriellenαund ersetztsαdurchs,αSie können jedoch nehmenα=(1/2,...,1/2).f(s)=12E[|sY||Y|+s]sRαsαs,αα=(1/2,,1/2)

  • Teilordnung Sie können die Definition von Quantilen in verallgemeinern,sobald Sie eine Teilordnung (mit Äquivalenzklassen) erstellen können.Rd

Offensichtlich gibt es Brücken zwischen den verschiedenen Formulierungen. Sie sind nicht alle offensichtlich ...

Robin Girard
quelle
Schöne Antwort, Robin!
ars
12

Es gibt verschiedene Möglichkeiten, das Konzept des Medians auf höhere Dimensionen zu verallgemeinern. Eine noch nicht erwähnte, aber vor langer Zeit vorgeschlagene Methode besteht darin, einen konvexen Rumpf zu konstruieren, ihn abzuziehen und so lange wie möglich zu iterieren. Mediane. "

"Head-Banging" ist ein weiterer neuerer Versuch (um 1980), ein robustes Zentrum für eine 2D-Punktwolke zu konstruieren. (Der Link führt zu Dokumentation und Software, die beim US National Cancer Institute erhältlich sind.)

Der Hauptgrund, warum es mehrere verschiedene Verallgemeinerungen gibt und keine offensichtliche Lösung ist, dass R1 geordnet werden kann, R2, R3, ... jedoch nicht.

whuber
quelle
Jede Kennzahl, die bei Beschränkung auf R1 mit dem üblichen Median übereinstimmt, ist eine Generalisierungskandidat. Es muss eine Menge von ihnen geben.
PHV3773
phv:> man kann nach der Generalisierung fragen, um (in höheren Dimensionen) einige der interessanten Eigenschaften des Medians zu erhalten. Dies schränkt die Anzahl der Kandidaten stark ein (siehe den Kommentar nach Srikants Antwort unten)
user603
@Whuber:> dann kann der Begriff der Bestellung für unimodale Verteilungen auf R ^ n verallgemeinert werden (siehe meine Antwort unten).
user603
@kwak: könntest du etwas näher darauf eingehen? Die übliche mathematische Definition einer Anordnung eines Raums ist unabhängig von jeder Art von Wahrscheinlichkeitsverteilung, daher müssen Sie implizit einige zusätzliche Annahmen berücksichtigen.
Whuber
1
@Whuber:> Sie geben an: "R1 kann bestellt werden, R2, R3, ... jedoch nicht". R2, .., R3 können auf viele Arten durch Abbildung von Rn auf R geordnet werden. Ein solcher Weg ist die Tukey-Tiefe. Es hat viele wichtige Eigenschaften (Robustheit in gewissem Maße, nicht parametrisch, Invarianz, ...), aber diese gelten nur für den Fall von unimodalen Verteilungen. Lassen Sie mich wissen, wenn Sie weitere Details wünschen.
user603
6

Der Tukey-Halbraum-Median kann mit DEEPLOC, einem Algorithmus nach Struyf und Rousseeuw, auf> 2 Dimensionen erweitert werden. siehe hier für weitere Einzelheiten.

Der Algorithmus wird verwendet, um den Punkt der größten Tiefe effizient zu approximieren. naive Methoden, die versuchen, dies genau zu bestimmen, verstoßen normalerweise gegen (die rechnerische Version von) "den Fluch der Dimensionalität", wobei die zur Berechnung einer Statistik erforderliche Laufzeit exponentiell mit der Anzahl der Dimensionen des Raums wächst.

Gary Campbell
quelle
0

Ich weiß nicht, ob eine solche Definition existiert, aber ich werde versuchen, die Standarddefinition des Medians auf . Ich werde die folgende Notation verwenden:R2

, Y : Die Zufallsvariablen, die den beiden Dimensionen zugeordnet sind.XY

, m y : die entsprechenden Mediane.mxmy

f(x,y) : das gemeinsame pdf für unsere Zufallsvariablen

Um die Definition des Medians auf , wählen wir m x und m y, um Folgendes zu minimieren:R2mxmy

E(|(x,y)(mx,my)|

Das Problem ist jetzt, dass wir eine Definition für das brauchen, was wir meinen mit:

|(x,y)(mx,my)|

Das Obige ist in gewissem Sinne eine Entfernungsmetrik und es sind mehrere mögliche Kandidatendefinitionen möglich.

Eucliedan Metric

|(x,y)(mx,my)|=(xmx)2+(ymy)2

f(x,y)

Taxicab Metric

|(x,y)(mx,my)|=|xmx|+|ymy|

XYxy


quelle
Srikant:> Nein. Die Definition muss zwei wichtige Merkmale des univariaten Medians enthalten. a) Unveränderlich gegenüber monotoner Transformation der Daten, b) Robust gegenüber Kontamination durch Ausreißer. Keine der von Ihnen vorgeschlagenen Erweiterungen hat diese. Die Tukey-Tiefe hat diese Eigenschaften.
user603
@kwak Was du sagst macht Sinn.
@Srikant:> Überprüfen Sie das oben von Gary Campbell zitierte R & S-Papier;). Best,
user603
@kwak Wenn Sie etwas mehr darüber nachdenken, hat die Taxicab-Metrik die von Ihnen erwähnten Funktionen, da sie sich im Grunde auf univariate Mediane reduziert. Nein?
2
@Srikant:> Es gibt keine falsche Antwort auf die Fragen von phv, weil es auch keine 'guten Antworten' gibt. Dieser Forschungsbereich befindet sich noch in der Entwicklung. Ich wollte nur darauf hinweisen, warum es immer noch ein offenes Problem ist.
user603