Wie kann ich einen Plot des Trimmprozentsatzes im Vergleich zum getrimmten Mittelwert interpretieren?

12

Für einen Teil einer Hausaufgabenfrage wurde ich gebeten, den getrimmten Mittelwert für einen Datensatz durch Löschen der kleinsten und größten Beobachtung zu berechnen und das Ergebnis zu interpretieren. Der getrimmte Mittelwert war niedriger als der nicht getrimmte Mittelwert.

Meine Interpretation war, dass dies daran lag, dass die zugrunde liegende Verteilung positiv verzerrt war, so dass der linke Schwanz dichter ist als der rechte Schwanz. Infolge dieser Abweichung wird der Mittelwert durch das Entfernen eines hohen Datums stärker nach unten verschoben als durch das Entfernen eines niedrigen Datums, da informell gesehen mehr niedrige Daten "darauf warten, seinen Platz einzunehmen". (Ist das vernünftig?)

Dann begann ich mich zu fragen, wie sich der Trimmprozentsatz darauf auswirkt, also berechnete ich den getrimmten Mittelwert für verschiedene k = 1 / n , 2 / n , , ( nx¯tr(k)k=1/n,2/n,,(n2-1)/nAuftragung des Trimmprozentsatzes gegen den getrimmten Mittelwert;  bildet eine konkave Kurve, die in etwa parabolisch aussieht

kn=11

Hat dieser Diagrammtyp einen Namen oder wird er häufig verwendet? Welche Informationen können wir aus dieser Grafik entnehmen? Gibt es eine Standardinterpretation?


Als Referenz sind die Daten: 4, 5, 5, 6, 11, 17, 18, 23, 33, 35, 80.

wchargin
quelle

Antworten:

11

@gung und @kjetil b. Halvorsen sind beide richtig.

Ich habe solche Grafiken in gefunden

Rosenberger, JL und M. Gasko. 1983. Standortschätzer vergleichen: Getrimmte Mittelwerte, Mediane und Trimean. Zum Verständnis der robusten und explorativen Datenanalyse , Hrsg. DC Hoaglin, F. Mosteller und JW Tukey, 297–338. New York: Wiley.

und

Davison, AC und DV Hinkley. 1997. Bootstrap-Methoden und ihre Anwendung. Cambridge: Cambridge University Press.

und geben Sie weitere Beispiele in

Cox, NJ 2013. Nach Geschmack zurechtschneiden. Stata Journal 13: 640–666. http://www.stata-journal.com/article.html?article=st0313 [kostenloser Zugriff auf PDF]

in denen viele Aspekte von beschnittenen Mitteln diskutiert wurden.

Soweit ich weiß, hat das Diagramm keinen eindeutigen Namen. Ein eindeutiger Name für jede mögliche Handlung wäre eigentlich ein kleiner Albtraum: Die grafische Terminologie ist bereits ein schreckliches Durcheinander. Ich würde es einfach einen Plot von abgeschnittenem Mittelwert gegenüber abgeschnittener Zahl, Bruchteil oder Prozent nennen (was die Formulierung des OP umkehrt).

Für weitere kleine Kommentare zu "versus" siehe meine Antwort in Heteroskedastizität in der Regression

BEARBEITEN: Weitere Informationen zu Versus (nur für Sprachkenner) finden Sie hier .

Nick Cox
quelle
10

Ich habe noch nie von diesem Graphen gehört, aber ich finde es ziemlich ordentlich. wahrscheinlich hat das schon mal jemand gemacht. Was Sie damit tun können, ist zu sehen, wie sich der Mittelwert verschiebt und / oder stabilisiert, wenn Sie unterschiedliche Anteile Ihrer Daten als Ausreißer betrachten. Der Grund, warum Sie die parabolische Form erhalten, ist, dass Ihre (anfängliche) Verteilung insgesamt richtig schief ist, aber der Grad der Schräglage in der Mitte der Verteilung nicht gleich ist. Betrachten Sie zum Vergleich die folgenden Diagramme der Kerneldichte.

Bildbeschreibung hier eingeben

Auf der linken Seite sehen Sie Ihre Daten, die nacheinander zugeschnitten werden. Rechts diese Daten:y = c(5.016528, 7.601235, 10.188326, 13.000723, 16.204741, 20.000000, 24.684133, 30.767520, 39.260622, 52.623029, 79.736416) Hierbei handelt es sich um Quantile einer logarithmischen Standardverteilung, die aus Perzentilen mit gleichem Abstand entnommen und mit 20 multipliziert werden, um einen ähnlichen Wertebereich zu erhalten.

Ihre Daten beginnen recht schief, aber in Zeile 5 bleiben sie schief, sodass durch das Zuschneiden von mehr Daten der Mittelwert wieder erhöht wird. Die Daten auf der rechten Seite weisen einen ähnlichen Versatz auf, wenn der Zuschnitt fortgesetzt wird.

Nachfolgend sehen Sie Ihre grafische Darstellung für die logarithmischen Normaldaten und die einheitlichen Daten ( z = 1:11kein Versatz - perfekt symmetrisch).

Bildbeschreibung hier eingeben Bildbeschreibung hier eingeben

gung - Wiedereinsetzung von Monica
quelle
4

Ich glaube nicht, dass diese Art von Grafik einen Namen hat, aber was Sie tun, ist vernünftig und Ihre Interpretation, denke ich, gültig. Ich denke, was Sie tun, hängt mit Hampels Einflussfunktion zusammen, siehe https://en.wikipedia.org/wiki/Robust_statistics#Empirical_influence_function, insbesondere den Abschnitt über die empirische Einflussfunktion. Und Ihr Plot könnte sicherlich mit einem Maß für die Schiefe der Daten zusammenhängen, da das Plot flach wäre, wenn Ihre Daten perfekt symmetrisch wären. Sie sollten das untersuchen!

            EDIT     

Eine Erweiterung dieses Diagramms soll auch den Effekt der Verwendung unterschiedlicher Beschneidungen links und rechts zeigen. Da dies in der üblichen meanFunktion mit Argument trimin R nicht implementiert ist , habe ich meine eigene getrimmte Mean-Funktion geschrieben. Um ein glatteres Diagramm zu erhalten, verwende ich die lineare Interpolation, wenn der Trimmbruch das Entfernen einer nicht ganzzahligen Anzahl von Punkten impliziert. Dies gibt die Funktion:

my.trmean  <-  function(x, trim)  {
    x  <-  sort(x)
    if (length(trim)==1) {
        tr1  <-  tr2  <-  trim }  else {
                                   tr1  <-  trim[1]
                                   tr2  <-  trim[2] }
    stopifnot((0 <= tr1)&& (tr1 <= 0.5)); stopifnot((0 <= tr2)&&(tr2 <= 0.5))
    n  <-  length(x)
    if ((tr1>=0.5-1/n)&&(tr2>=0.5-1/n)) return( median(x) )

    k1  <-  floor(n*tr1) ; k2  <-  floor(n*tr2)
    a1  <-  n*tr1-k1     ; a2  <-  n*tr2-k2
    crange  <-  if ( (k1+2) <= (n-k2-1) ) ((k1+2):(n-k2-1)) else NULL
    trmean  <-  sum(c((1-a1)*x[k1+1], x[crange], (1-a2)*x[n-k2]))/(length(crange)+2-(a1+a2)  )
    trmean     
}

Dann simuliere ich einige Daten und zeige das Ergebnis als Konturdiagramm:

tr1  <-  seq(0, 0.5, length.out=25)
tr2  <-   seq(0, 0.5, length.out=25)

x  <-  rgamma(10000, 1.5)
vals  <-  outer(tr1, tr2, FUN=Vectorize(function(t1, t2) my.trmean(x, c(t1, t2))))

image(tr1, tr2, vals, xlab="left trimming", ylab="right trimming", main="Effect of trimming")
contour(tr1, tr2, vals, nlevels=20, add=TRUE)

Geben Sie dieses Ergebnis:

Konturdiagramm, das den Effekt des Zuschneidens zeigt

kjetil b halvorsen
quelle