Abrufen der Mindestbreite, die den angegebenen Bruchteil aller Werte enthält

Schlagzeilen:

Ein Schlüsselwort ist kurz .
Eine R-Implementierung und Links zu einem aktuellen Projekt mit Veröffentlichungen finden Sie auf der Seite von Günther Sawitzki unter http://www.statlab.uni-heidelberg.de/people/gs/.
Es gibt eine Stata-Implementierung, die von installiert werden kann ssc inst shorth.

Langsamer und ohne zu versuchen, Sawitzkis Arbeit gerecht zu werden:

Die Ordnungsstatistik einer Stichprobe von Werten von wird durch definiert $n$ $x$

$x_{(1)} \le x_{(2)} \le \cdots \le x_{(n-1)} \le x_{(n)}.$

Sei . Dann wird die kürzeste Hälfte der Daten von Rang bis Rang identifiziert, um über zu minimieren . Dieses Intervall nennen wir die Länge der kürzesten Hälfte. $h = \lfloor n / 2\rfloor$ $k$ $k + h$ $x_{(k + h)} - x_{(k)}$ $k = 1, \cdots, n - h$

Die Kurzschrift wurde von JW Tukey benannt und in der Princeton-Robustheitsstudie von Standortschätzern von Andrews, Bickel, Hampel, Huber, Rogers und Tukey (1972, S. 26) als Mittelwert von . Es erregte Aufmerksamkeit wegen seiner ungewöhnlichen asymptotischen Eigenschaften (S. 50-52): Siehe dazu auch die späteren Berichte von Shorack und Wellner (1986, S. 767-771) sowie Kim und Pollard (1990). Ansonsten fiel es für etwa ein Jahrzehnt schnell außer Sicht. Übrigens zeigt Hampel (1997), dass die Ergebnisse, die der Princeton-Studie zu asymmetrischen Situationen zur Verfügung standen, aber zu diesem Zeitpunkt noch nicht vollständig analysiert wurden, die Kurzschrift besser beleuchten als damals angenommen. $x_{(k)}, \cdots, x_{(k + h)}$

Das Interesse an solchen Ideen wurde wiederbelebt, als Rousseeuw (1984) auf der Grundlage eines Vorschlags von Hampel (1975) darauf hinwies, dass der Mittelpunkt der kürzesten Hälfte ist der kleinste Median der Quadrate (LMS) Schätzer der Position für . Siehe Rousseeuw (1984) und Rousseeuw und Leroy (1987) für Anwendungen von LMS und verwandten Ideen auf Regression und andere Probleme. Beachten Sie, dass dieser LMS-Mittelpunkt in einigen neueren Literaturstellen auch als Kurzschrift bezeichnet wird (z. B. David und Nagaraja 2003, S. 223; Maronna, Martin und Yohai 2006, S. 48). Ferner wird die kürzeste Hälfte selbst manchmal auch als Kurzschrift bezeichnet, wie der Titel von Grübel (1988) zeigt. $(x_{(k)} + x_{(k + h)}) / 2$ $x$

Die Länge der kürzesten Hälfte ist ein robustes Maß für die Größe oder Ausbreitung: Siehe Rousseeuw und Leroy (1988), Grübel (1988), Rousseeuw und Croux (1993) sowie Martin und Zamar (1993) für weitere Analysen und Diskussionen.

Die Länge der kürzesten Hälfte in einem Gaußschen (Normalen) mit Mittelwert 0 und Standardabweichung 1 beträgt 1,349 bis 3 dp. Um die Standardabweichung von der beobachteten Länge abzuschätzen, dividieren Sie durch diese Gaußsche Länge.

Es folgen einige breit gefächerte Kommentare zu den Vor- und Nachteilen der Ideen der kürzesten Hälfte, sowohl vom Standpunkt praktischer Datenanalysten als auch von mathematischen oder theoretischen Statistikern. Unabhängig vom Projekt ist es immer ratsam, Kurzergebnisse mit Standardzusammenfassungsmaßen (einschließlich anderer Mittel, insbesondere geometrischer und harmonischer Mittel) zu vergleichen und die Ergebnisse mit Verteilungsgraphen in Beziehung zu setzen. Wenn Sie an der Existenz oder dem Ausmaß der Bimodalität oder Multimodalität interessiert sind, ist es außerdem am besten, direkt geglättete Schätzungen der Dichtefunktion zu betrachten.

Einfachheit Die Idee der kürzesten Hälfte ist für Studenten und Forscher, die sich nicht als statistische Spezialisten betrachten, einfach und leicht zu erklären. Es führt direkt zu zwei ziemlich intuitiven Standort- und Ausbreitungsmaßen. Es ist auch relativ einfach, Berechnungen mit primitiven Werkzeugen (Bleistift und Papier, Taschenrechner, Tabellenkalkulationen) von Hand durchzuführen.
Verbindungen Die Ähnlichkeiten und Unterschiede zwischen der Länge der kürzesten Hälfte, dem Interquartilbereich und der mittleren absoluten Abweichung vom Median (MAD) (oder im Übrigen dem wahrscheinlichen Fehler) sind unmittelbar. Die kürzesten halben Ideen sind daher mit anderen statistischen Ideen verknüpft, die vielen Datenanalysten bereits bekannt sein sollten.
Grafische Interpretation Die kürzeste Hälfte kann leicht mit Standardanzeigen von Verteilungen wie kumulativen Verteilungs- und Quantildiagrammen, Histogrammen und Stamm-Blatt-Diagrammen in Verbindung gebracht werden.
Modus Durch Mittelung, wo die Daten am dichtesten sind, führen die Kurzschrift und auch der LMS-Mittelpunkt eine Modusvariante zur Zusammenfassung des Standorts ein. Bei Anwendung auf Verteilungen, die ungefähr symmetrisch sind, liegt die Abkürzung nahe am Mittelwert und Median, ist jedoch widerstandsfähiger als der Mittelwert für Ausreißer in beiden Endpunkten und effizienter als der Median für Verteilungen in der Nähe der Gaußschen (normalen) Form. Bei Anwendung auf Verteilungen, die unimodal und asymmetrisch sind, sind die Kurzschrift und das LMS normalerweise näher am Modus als entweder der Mittelwert oder der Median. Beachten Sie, dass die Idee, den Modus als Mittelpunkt des kürzesten Intervalls zu schätzen, das eine feste Anzahl von Beobachtungen enthält, zumindest auf Dalenius (1965) zurückgeht. Siehe auch Robertson und Cryer (1974), Bickel (2002) und Bickel und Frühwirth (2006) zu anderen Schätzern des Modus. Der Halbabtastmodus-Schätzer von Bickel und Frühwirth ist besonders interessant als rekursive Auswahl der kürzesten Hälfte. Stata-Benutzer können eine Stata-Implementierung von herunterladenssc inst hsmode.
Ausreißeridentifikation Eine resistente Standardisierung wie (Wert - Kurzschrift) / Länge kann bei der Identifizierung von Ausreißern hilfreich sein. Zur Diskussion verwandter Ideen siehe Carey et al. (1997) und enthielt Referenzen.
Verallgemeinern auf den kürzesten Bruch Die Idee kann auf andere Proportionen als die Hälfte verallgemeinert werden.

Beachten Sie gleichzeitig, dass

Nicht für alle Verteilungen geeignet Bei Anwendung auf Verteilungen, die ungefähr J-förmig sind, nähert sich die Kurzschrift dem Mittelwert der unteren Hälfte der Daten an, und der LMS-Mittelpunkt ist eher höher. Bei Anwendung auf Verteilungen, die ungefähr U-förmig sind, liegen der Shorth- und der LMS-Mittelpunkt innerhalb der Hälfte der Verteilung, die zufällig eine höhere durchschnittliche Dichte aufweist. Keines der beiden Verhaltensweisen scheint besonders interessant oder nützlich zu sein, aber es gibt wenig Bedarf an Einzelmoden-ähnlichen Zusammenfassungen für J-förmige oder U-förmige Verteilungen. Für J-Formen ist oder sollte der Modus das Minimum sein, und für U-Formen macht die Bimodalität die Idee eines einzelnen Modus umstritten, wenn nicht sogar ungültig.
Krawatten Die kürzeste Hälfte ist möglicherweise nicht eindeutig definiert. Selbst bei gemessenen Daten kann das Runden von gemeldeten Werten häufig zu Bindungen führen. Was mit zwei oder mehr kürzesten Hälften zu tun ist, wurde in der Literatur wenig diskutiert. Beachten Sie, dass gebundene Hälften entweder überlappen oder unzusammenhängend sein können. Unterschiedliche Implementierungen können dies auf leicht unterschiedliche Weise angehen.
$1 + \lfloor n / 2\rfloor$ $n$ $n$ $n = 1$ $n = 2$ Die Kurzschrift ist der Durchschnitt der beiden Stichprobenwerte. Ein weiteres Detail dieser Regel ist, dass sie immer eine geringe Mehrheit definiert und so demokratische Entscheidungen über die Daten erzwingt. Es scheint jedoch keinen starken Grund zu geben, als noch einfachere Regel zu verwenden, außer dass alle Autoren auf der Kurzschrift gefolgt zu sein scheinen . $\lceil n / 2\rceil$ $1 + \lfloor n / 2\rfloor$
Verwendung mit gewichteten Daten Die Identifizierung der kürzesten Hälfte scheint sich nur ziemlich chaotisch auf Situationen zu erstrecken, in denen Beobachtungen mit ungleichen Gewichten verbunden sind.
Länge, wenn die meisten Werte identisch sind Wenn mindestens die Hälfte der Werte in einer Stichprobe einer Konstanten entspricht, ist die Länge der kürzesten Hälfte 0. Wenn beispielsweise die meisten Werte 0 sind und einige größer, ist die Länge der kürzesten Die Hälfte ist nicht besonders nützlich als Maß für die Größe oder Ausbreitung.

Andrews, DF, PJ Bickel, FR Hampel, PJ Huber, WH Rogers und JW Tukey. 1972. Robuste Standortschätzungen: Vermessung und Fortschritte. Princeton, NJ: Princeton University Press.

Bickel, DR 2002. Robuste Schätzer für den Modus und die Schiefe kontinuierlicher Daten. Computational Statistics & Data Analysis 39: 153 & ndash ; 163.

Bickel, DR und R. Frühwirth. 2006. Auf einem schnellen, robusten Schätzer des Modus: Vergleiche mit anderen Schätzern mit Anwendungen. Computational Statistics & Data Analysis 50: 3500-3530.

Carey, VJ, EE Walters, CG Wager und BA Rosner. 1997. Resistente und testbasierte Ausreißer-Zurückweisung: Auswirkungen auf die Gaußsche Inferenz mit einer und zwei Stichproben. Technometrics 39: 320 & ndash; 330.

Christmann, A., U. Gather und G. Scholz. 1994. Einige Eigenschaften der Länge der kürzesten Hälfte. Statistica Neerlandica 48: 209 & ndash; 213.

Dalenius, T. 1965. Der Modus - Ein vernachlässigter statistischer Parameter. Journal, Royal Statistical Society A 128: 110 & ndash; 117.

Grübel, R. 1988. Die Länge der Kurzschrift. Annals of Statistics 16: 619-628.

Hampel, FR 1975. Über Standortparameter hinaus: robuste Konzepte und Methoden. Bulletin, International Statistical Institute 46: 375 & ndash; 382.

Hampel, FR 1997. Einige zusätzliche Anmerkungen zum "Princeton Robustness Year". In Brillinger, DR, LT Fernholz und S. Morgenthaler (Hrsg.) Die Praxis der Datenanalyse: Aufsätze zu Ehren von John W. Tukey. Princeton, NJ: Princeton University Press, 133-153.

Kim, J. und D. Pollard. 1990. Asymptotik der Kubikwurzel. Annals of Statistics 18: 191-219.

Maronna, RA, RD Martin und VJ Yohai. 2006. Robuste Statistik: Theorie und Methoden. Chichester: John Wiley.

Martin, RD und RH Zamar. 1993. Bias robuste Skalenschätzung. Annals of Statistics 21: 991-1017.

Robertson, T. und JD Cryer. 1974. Ein iteratives Verfahren zur Schätzung des Modus. Journal, American Statistical Association 69: 1012 & ndash; 1016.

Rousseeuw, PJ 1984. Kleinster Median der Quadratregression. Journal, American Statistical Association 79: 871 & ndash; 880.

Rousseeuw, PJ und C. Croux. 1993. Alternativen zur mittleren absoluten Abweichung. Journal, American Statistical Association 88: 1273 & ndash; 1283.

Rousseeuw, PJ und AM Leroy. 1987. Robuste Regression und Ausreißererkennung. New York: John Wiley.

Rousseeuw, PJ und AM Leroy. 1988. Ein robuster Skalenschätzer basierend auf der kürzesten Hälfte. Statistica Neerlandica 42: 103 & ndash; 116.

Shorack, GR und JA Wellner. 1986. Empirische Prozesse mit Anwendungen auf die Statistik. New York: John Wiley.

Nick Cox
quelle

Vielen Dank; Ich wusste, dass es einen abgekürzten Begriff gab, als ich die kurze Hälfte erwähnte , konnte mir aber nicht vorstellen, was es war.

Glen_b -Reinstate Monica

+6 Erstaunlicher Beitrag: informativ, aufschlussreich und unterhaltsam zu lesen.

whuber

@whuber Vielen Dank; Lob vom Lobenswerten ist in der Tat Lob. Es handelt sich meistens um eine Version der Dokumentation für meine Stata-Implementierung, die von Stata-Benutzern heruntergeladen ssc inst shorthund ansonsten unter econpapers.repec.org/software/bocbocode/s456728.html angezeigt werden kann (Nicht-Stata-Benutzer erhalten dort keine zusätzlichen Informationen ).

Nick Cox

Sehr schön! Entschuldigung, dass es so lange gedauert hat, es als Antwort zu akzeptieren ... es ist ziemlich schnell vom Radar gefallen.

user1269942

Abrufen der Mindestbreite, die den angegebenen Bruchteil aller Werte enthält

Antworten: