Ich frage mich, wie ich Daten und Vertrauensellipsen um einen bivariaten Median berechnen kann. Zum Beispiel kann ich leicht eine Datenellipse oder eine Konfidenzellipse für den bivariaten Mittelwert der folgenden Daten berechnen (hier nur eine Datenellipse).
library("car")
set.seed(1)
df <- data.frame(x = rnorm(200, mean = 4, sd = 1.5),
y = rnorm(200, mean = 1.4, sd = 2.5))
plot(df)
with(df, dataEllipse(x, y, level = 0.68, add = TRUE))
Aber ich habe Probleme damit, wie ich das für einen bivariaten Median machen würde? Im univariaten Fall könnte ich einfach ein Bootstrap-Resample durchführen, um das erforderliche Intervall zu generieren, aber ich bin mir nicht sicher, wie ich dies in den bivariaten Fall übersetzen soll?
Wie von @Andy W hervorgehoben, ist der Median nicht eindeutig definiert. In diesem Fall haben wir den räumlichen Median verwendet , indem wir einen Punkt gefunden haben, der die L1-Norm der Abstände zwischen Beobachtungen an diesem Punkt minimiert. Eine Optimierung wurde verwendet, um den räumlichen Median aus den beobachteten Datenpunkten zu berechnen.
Außerdem sind die x, y-Datenpaare im tatsächlichen Anwendungsfall zwei Eigenvektoren einer Hauptkoordinatenanalyse einer Unähnlichkeitsmatrix, daher sollten x und y orthogonal sein, wenn dies einen bestimmten Angriffsweg bietet.
Im tatsächlichen Anwendungsfall möchten wir die Daten- / Konfidenzellipse für Punktgruppen im euklidischen Raum berechnen. Zum Beispiel:
Die Analyse ist ein multivariates Analogon eines Levene-Tests zur Homogenität von Varianzen zwischen Gruppen. Wir verwenden räumliche Mediane oder Standardgruppenschwerpunkte als Maß für die multivariate zentrale Tendenz und möchten das Äquivalent der Datenellipse in der obigen Abbildung für den Fall des räumlichen Medians hinzufügen.
Antworten:
Das ist eine schöne Frage.
Ich werde dem Vorschlag von @ amoeba folgen und die räumlichen Medianex y
depth::med()
mit verwendenmethod="Spatial"
. Es gibt jedoch eine leichte Komplikation: Esmed
gefällt nicht, wenn doppelte Datenpunkte vorhanden sind, sodass wir keinen einfachen Bootstrap durchführen können. Stattdessen zeichne ich ein Bootstrap-Beispiel und zittere dann jeden Punkt um einen winzigen Betrag - weniger als die Mindestabstände in jeder der und Dimensionen im ursprünglichen Datenmuster -, bevor ich den räumlichen Median berechne.Schließlich werde ich die kleinste Ellipse berechnen, die einen bestimmten Anteil (95%) der Bootstrap-Mediane und des Plots abdeckt .
Schließlich ist zu beachten, dass der bivariate räumliche Median asymptotisch normalverteilt ist (Brown, 1983, JRSS, Serie B ) , sodass wir auch auf den obigen "zitternden Bootstrap" verzichten und die Ellipse direkt berechnen können, wobei wir darauf vertrauen, dass asymptotisch genug ist ". Ich kann diesen Beitrag bearbeiten, um diese parametrische Vertrauensellipse einzuschließen, wenn ich die Zeit in den nächsten Tagen finde.n = 200
quelle