Ich möchte die Min / Max-Grenzen eines Schiebefensters mit minimaler Größe finden, das einen bestimmten Bruchteil der Gesamtzahl der Elemente in einem Array oder einer Sammlung von Zahlen enthält.
Beispiel: Nehmen Sie Ganzzahlen, um die Erklärung zu vereinfachen. Angenommen, der Anteil der Elemente, nach denen wir suchen, beträgt 50% in diesem Array:
[1,1,2,3,3,3,3,3,3,4,5,6,7,8,9,10]
Die Mystery-Funktion würde so etwas wie (2, 4) zurückgeben, was bedeutet, dass der Minimalwert 2 und der Maximalwert 4 ist (nehmen wir an, dass er inklusive ist und beachten Sie, dass dies WERTE sind, keine Indizes). Dieses kleine Fenster enthält 8 der 16 Werte und ist nur 2 Einheiten breit. Das engste Fenster dieser Art enthält die Hälfte der Werte.
Hinweis: Die Quartile sind [1,1,2,3], [3,3,3,3], [3,4,5,6], [7,8,9,10], also sind sie NICHT das, was ich bin suche.
Ich kann es codieren ... es kann einige Zeit dauern, bis es schön wird. Hoffentlich ist jemand schon einmal darauf gestoßen. Hat es einen Namen? Gibt es eine Methode, die jemand kennt?
Ich interessiere mich für Python-Implementierungen.
AKTUALISIEREN:
Dank Glen_b, der die Namen 'kurze Hälfte' und 'kürzestes Intervall' angegeben hat, konnte ich Folgendes finden : Finden Sie Wahrscheinlichkeitsdichteintervalle
quelle
Antworten:
Schlagzeilen:
Ein Schlüsselwort ist kurz .
Eine R-Implementierung und Links zu einem aktuellen Projekt mit Veröffentlichungen finden Sie auf der Seite von Günther Sawitzki unter http://www.statlab.uni-heidelberg.de/people/gs/.
Es gibt eine Stata-Implementierung, die von installiert werden kann
ssc inst shorth
.Langsamer und ohne zu versuchen, Sawitzkis Arbeit gerecht zu werden:
Die Ordnungsstatistik einer Stichprobe von Werten von wird durch definiertxn x
Sei . Dann wird die kürzeste Hälfte der Daten von Rang bis Rang identifiziert, um über zu minimieren . Dieses Intervall nennen wir die Länge der kürzesten Hälfte.k k + h x ( k + h ) - x ( k ) k = 1 , ⋯ , n - hh = ⌊ n / 2 ⌋ k k + h x( k + h )- x( k ) k = 1 , ⋯ , n - h
Die Kurzschrift wurde von JW Tukey benannt und in der Princeton-Robustheitsstudie von Standortschätzern von Andrews, Bickel, Hampel, Huber, Rogers und Tukey (1972, S. 26) als Mittelwert von . Es erregte Aufmerksamkeit wegen seiner ungewöhnlichen asymptotischen Eigenschaften (S. 50-52): Siehe dazu auch die späteren Berichte von Shorack und Wellner (1986, S. 767-771) sowie Kim und Pollard (1990). Ansonsten fiel es für etwa ein Jahrzehnt schnell außer Sicht. Übrigens zeigt Hampel (1997), dass die Ergebnisse, die der Princeton-Studie zu asymmetrischen Situationen zur Verfügung standen, aber zu diesem Zeitpunkt noch nicht vollständig analysiert wurden, die Kurzschrift besser beleuchten als damals angenommen.x( k ), ⋯ , x( k + h )
Das Interesse an solchen Ideen wurde wiederbelebt, als Rousseeuw (1984) auf der Grundlage eines Vorschlags von Hampel (1975) darauf hinwies, dass der Mittelpunkt der kürzesten Hälfte ist der kleinste Median der Quadrate (LMS) Schätzer der Position für . Siehe Rousseeuw (1984) und Rousseeuw und Leroy (1987) für Anwendungen von LMS und verwandten Ideen auf Regression und andere Probleme. Beachten Sie, dass dieser LMS-Mittelpunkt in einigen neueren Literaturstellen auch als Kurzschrift bezeichnet wird (z. B. David und Nagaraja 2003, S. 223; Maronna, Martin und Yohai 2006, S. 48). Ferner wird die kürzeste Hälfte selbst manchmal auch als Kurzschrift bezeichnet, wie der Titel von Grübel (1988) zeigt.x( x( k )+ x( k + h )) / 2 x
Die Länge der kürzesten Hälfte ist ein robustes Maß für die Größe oder Ausbreitung: Siehe Rousseeuw und Leroy (1988), Grübel (1988), Rousseeuw und Croux (1993) sowie Martin und Zamar (1993) für weitere Analysen und Diskussionen.
Die Länge der kürzesten Hälfte in einem Gaußschen (Normalen) mit Mittelwert 0 und Standardabweichung 1 beträgt 1,349 bis 3 dp. Um die Standardabweichung von der beobachteten Länge abzuschätzen, dividieren Sie durch diese Gaußsche Länge.
Es folgen einige breit gefächerte Kommentare zu den Vor- und Nachteilen der Ideen der kürzesten Hälfte, sowohl vom Standpunkt praktischer Datenanalysten als auch von mathematischen oder theoretischen Statistikern. Unabhängig vom Projekt ist es immer ratsam, Kurzergebnisse mit Standardzusammenfassungsmaßen (einschließlich anderer Mittel, insbesondere geometrischer und harmonischer Mittel) zu vergleichen und die Ergebnisse mit Verteilungsgraphen in Beziehung zu setzen. Wenn Sie an der Existenz oder dem Ausmaß der Bimodalität oder Multimodalität interessiert sind, ist es außerdem am besten, direkt geglättete Schätzungen der Dichtefunktion zu betrachten.
Einfachheit Die Idee der kürzesten Hälfte ist für Studenten und Forscher, die sich nicht als statistische Spezialisten betrachten, einfach und leicht zu erklären. Es führt direkt zu zwei ziemlich intuitiven Standort- und Ausbreitungsmaßen. Es ist auch relativ einfach, Berechnungen mit primitiven Werkzeugen (Bleistift und Papier, Taschenrechner, Tabellenkalkulationen) von Hand durchzuführen.
Verbindungen Die Ähnlichkeiten und Unterschiede zwischen der Länge der kürzesten Hälfte, dem Interquartilbereich und der mittleren absoluten Abweichung vom Median (MAD) (oder im Übrigen dem wahrscheinlichen Fehler) sind unmittelbar. Die kürzesten halben Ideen sind daher mit anderen statistischen Ideen verknüpft, die vielen Datenanalysten bereits bekannt sein sollten.
Grafische Interpretation Die kürzeste Hälfte kann leicht mit Standardanzeigen von Verteilungen wie kumulativen Verteilungs- und Quantildiagrammen, Histogrammen und Stamm-Blatt-Diagrammen in Verbindung gebracht werden.
Modus Durch Mittelung, wo die Daten am dichtesten sind, führen die Kurzschrift und auch der LMS-Mittelpunkt eine Modusvariante zur Zusammenfassung des Standorts ein. Bei Anwendung auf Verteilungen, die ungefähr symmetrisch sind, liegt die Abkürzung nahe am Mittelwert und Median, ist jedoch widerstandsfähiger als der Mittelwert für Ausreißer in beiden Endpunkten und effizienter als der Median für Verteilungen in der Nähe der Gaußschen (normalen) Form. Bei Anwendung auf Verteilungen, die unimodal und asymmetrisch sind, sind die Kurzschrift und das LMS normalerweise näher am Modus als entweder der Mittelwert oder der Median. Beachten Sie, dass die Idee, den Modus als Mittelpunkt des kürzesten Intervalls zu schätzen, das eine feste Anzahl von Beobachtungen enthält, zumindest auf Dalenius (1965) zurückgeht. Siehe auch Robertson und Cryer (1974), Bickel (2002) und Bickel und Frühwirth (2006) zu anderen Schätzern des Modus. Der Halbabtastmodus-Schätzer von Bickel und Frühwirth ist besonders interessant als rekursive Auswahl der kürzesten Hälfte. Stata-Benutzer können eine Stata-Implementierung von herunterladen
ssc inst hsmode
.Ausreißeridentifikation Eine resistente Standardisierung wie (Wert - Kurzschrift) / Länge kann bei der Identifizierung von Ausreißern hilfreich sein. Zur Diskussion verwandter Ideen siehe Carey et al. (1997) und enthielt Referenzen.
Verallgemeinern auf den kürzesten Bruch Die Idee kann auf andere Proportionen als die Hälfte verallgemeinert werden.
Beachten Sie gleichzeitig, dass
Nicht für alle Verteilungen geeignet Bei Anwendung auf Verteilungen, die ungefähr J-förmig sind, nähert sich die Kurzschrift dem Mittelwert der unteren Hälfte der Daten an, und der LMS-Mittelpunkt ist eher höher. Bei Anwendung auf Verteilungen, die ungefähr U-förmig sind, liegen der Shorth- und der LMS-Mittelpunkt innerhalb der Hälfte der Verteilung, die zufällig eine höhere durchschnittliche Dichte aufweist. Keines der beiden Verhaltensweisen scheint besonders interessant oder nützlich zu sein, aber es gibt wenig Bedarf an Einzelmoden-ähnlichen Zusammenfassungen für J-förmige oder U-förmige Verteilungen. Für J-Formen ist oder sollte der Modus das Minimum sein, und für U-Formen macht die Bimodalität die Idee eines einzelnen Modus umstritten, wenn nicht sogar ungültig.
Krawatten Die kürzeste Hälfte ist möglicherweise nicht eindeutig definiert. Selbst bei gemessenen Daten kann das Runden von gemeldeten Werten häufig zu Bindungen führen. Was mit zwei oder mehr kürzesten Hälften zu tun ist, wurde in der Literatur wenig diskutiert. Beachten Sie, dass gebundene Hälften entweder überlappen oder unzusammenhängend sein können. Unterschiedliche Implementierungen können dies auf leicht unterschiedliche Weise angehen.
n = 1 n = 2 ⌈ n / 2 ⌉ 1 + ⌊ n / 2 ⌋1 + ⌊ n / 2 ⌋ n n n = 1 n = 2 Die Kurzschrift ist der Durchschnitt der beiden Stichprobenwerte. Ein weiteres Detail dieser Regel ist, dass sie immer eine geringe Mehrheit definiert und so demokratische Entscheidungen über die Daten erzwingt. Es scheint jedoch keinen starken Grund zu geben, als noch einfachere Regel zu verwenden, außer dass alle Autoren auf der Kurzschrift gefolgt zu sein scheinen .⌈ n / 2 ⌉ 1 + ⌊ n / 2 ⌋
Verwendung mit gewichteten Daten Die Identifizierung der kürzesten Hälfte scheint sich nur ziemlich chaotisch auf Situationen zu erstrecken, in denen Beobachtungen mit ungleichen Gewichten verbunden sind.
Länge, wenn die meisten Werte identisch sind Wenn mindestens die Hälfte der Werte in einer Stichprobe einer Konstanten entspricht, ist die Länge der kürzesten Hälfte 0. Wenn beispielsweise die meisten Werte 0 sind und einige größer, ist die Länge der kürzesten Die Hälfte ist nicht besonders nützlich als Maß für die Größe oder Ausbreitung.
Andrews, DF, PJ Bickel, FR Hampel, PJ Huber, WH Rogers und JW Tukey. 1972. Robuste Standortschätzungen: Vermessung und Fortschritte. Princeton, NJ: Princeton University Press.
Bickel, DR 2002. Robuste Schätzer für den Modus und die Schiefe kontinuierlicher Daten. Computational Statistics & Data Analysis 39: 153 & ndash ; 163.
Bickel, DR und R. Frühwirth. 2006. Auf einem schnellen, robusten Schätzer des Modus: Vergleiche mit anderen Schätzern mit Anwendungen. Computational Statistics & Data Analysis 50: 3500-3530.
Carey, VJ, EE Walters, CG Wager und BA Rosner. 1997. Resistente und testbasierte Ausreißer-Zurückweisung: Auswirkungen auf die Gaußsche Inferenz mit einer und zwei Stichproben. Technometrics 39: 320 & ndash; 330.
Christmann, A., U. Gather und G. Scholz. 1994. Einige Eigenschaften der Länge der kürzesten Hälfte. Statistica Neerlandica 48: 209 & ndash; 213.
Dalenius, T. 1965. Der Modus - Ein vernachlässigter statistischer Parameter. Journal, Royal Statistical Society A 128: 110 & ndash; 117.
Grübel, R. 1988. Die Länge der Kurzschrift. Annals of Statistics 16: 619-628.
Hampel, FR 1975. Über Standortparameter hinaus: robuste Konzepte und Methoden. Bulletin, International Statistical Institute 46: 375 & ndash; 382.
Hampel, FR 1997. Einige zusätzliche Anmerkungen zum "Princeton Robustness Year". In Brillinger, DR, LT Fernholz und S. Morgenthaler (Hrsg.) Die Praxis der Datenanalyse: Aufsätze zu Ehren von John W. Tukey. Princeton, NJ: Princeton University Press, 133-153.
Kim, J. und D. Pollard. 1990. Asymptotik der Kubikwurzel. Annals of Statistics 18: 191-219.
Maronna, RA, RD Martin und VJ Yohai. 2006. Robuste Statistik: Theorie und Methoden. Chichester: John Wiley.
Martin, RD und RH Zamar. 1993. Bias robuste Skalenschätzung. Annals of Statistics 21: 991-1017.
Robertson, T. und JD Cryer. 1974. Ein iteratives Verfahren zur Schätzung des Modus. Journal, American Statistical Association 69: 1012 & ndash; 1016.
Rousseeuw, PJ 1984. Kleinster Median der Quadratregression. Journal, American Statistical Association 79: 871 & ndash; 880.
Rousseeuw, PJ und C. Croux. 1993. Alternativen zur mittleren absoluten Abweichung. Journal, American Statistical Association 88: 1273 & ndash; 1283.
Rousseeuw, PJ und AM Leroy. 1987. Robuste Regression und Ausreißererkennung. New York: John Wiley.
Rousseeuw, PJ und AM Leroy. 1988. Ein robuster Skalenschätzer basierend auf der kürzesten Hälfte. Statistica Neerlandica 42: 103 & ndash; 116.
Shorack, GR und JA Wellner. 1986. Empirische Prozesse mit Anwendungen auf die Statistik. New York: John Wiley.
quelle
ssc inst shorth
und ansonsten unter econpapers.repec.org/software/bocbocode/s456728.html angezeigt werden kann (Nicht-Stata-Benutzer erhalten dort keine zusätzlichen Informationen ).