Abrufen der Mindestbreite, die den angegebenen Bruchteil aller Werte enthält

8

Ich möchte die Min / Max-Grenzen eines Schiebefensters mit minimaler Größe finden, das einen bestimmten Bruchteil der Gesamtzahl der Elemente in einem Array oder einer Sammlung von Zahlen enthält.

Beispiel: Nehmen Sie Ganzzahlen, um die Erklärung zu vereinfachen. Angenommen, der Anteil der Elemente, nach denen wir suchen, beträgt 50% in diesem Array:

[1,1,2,3,3,3,3,3,3,4,5,6,7,8,9,10]

Die Mystery-Funktion würde so etwas wie (2, 4) zurückgeben, was bedeutet, dass der Minimalwert 2 und der Maximalwert 4 ist (nehmen wir an, dass er inklusive ist und beachten Sie, dass dies WERTE sind, keine Indizes). Dieses kleine Fenster enthält 8 der 16 Werte und ist nur 2 Einheiten breit. Das engste Fenster dieser Art enthält die Hälfte der Werte.

Hinweis: Die Quartile sind [1,1,2,3], [3,3,3,3], [3,4,5,6], [7,8,9,10], also sind sie NICHT das, was ich bin suche.

Ich kann es codieren ... es kann einige Zeit dauern, bis es schön wird. Hoffentlich ist jemand schon einmal darauf gestoßen. Hat es einen Namen? Gibt es eine Methode, die jemand kennt?

Ich interessiere mich für Python-Implementierungen.

AKTUALISIEREN:

Dank Glen_b, der die Namen 'kurze Hälfte' und 'kürzestes Intervall' angegeben hat, konnte ich Folgendes finden : Finden Sie Wahrscheinlichkeitsdichteintervalle

user1269942
quelle
1
" Ich hoffe, es ist in Ordnung, dies auf Statistiken UND Stapelüberlauf zu setzen " - Es wird davon abgeraten, wie aus der Hilfe hervorgeht: " Bitte beachten Sie jedoch, dass Cross-Posting auf SE-Websites nicht empfohlen wird . Wählen Sie einen besten Ort, um Ihre Frage zu veröffentlichen. Später Wenn es sich auf einer anderen Site als besser geeignet erweist, kann es migriert werden. " Wählen Sie also eine aus und löschen Sie die andere.
Glen_b -Reinstate Monica
Wenn es 50% ist, wird ein solches Intervall manchmal als kurze Hälfte bezeichnet . Allgemeiner kann es manchmal als kürzestes Intervall bezeichnet werden.
Glen_b -State Monica
Hoppla. Danke für die Warnung. Ich habe den Beitrag bei Stackoverflow entfernt. Ich werde 'kurze Hälfte'
nachschlagen
(Blick auf den Link) Interessanterweise habe ich darüber diskutiert, HPD-Intervalle zu erwähnen, aber sie gelten wirklich für Distributionen. Ich nahm an, dass die Leute nicht den gleichen Begriff auf Proben anwenden würden, aber nicht finden konnten, wie sie genannt werden sollten. Es stellte sich heraus, dass ich falsch lag.
Glen_b -State Monica
Übrigens, was Sie für Quartile halten, sind keine Quartile, sondern die Daten zwischen aufeinanderfolgenden Quartilen (und unter / über den ersten bzw. dritten)
Glen_b

Antworten:

12

Schlagzeilen:

  • Ein Schlüsselwort ist kurz .

  • Eine R-Implementierung und Links zu einem aktuellen Projekt mit Veröffentlichungen finden Sie auf der Seite von Günther Sawitzki unter http://www.statlab.uni-heidelberg.de/people/gs/.

  • Es gibt eine Stata-Implementierung, die von installiert werden kann ssc inst shorth.

Langsamer und ohne zu versuchen, Sawitzkis Arbeit gerecht zu werden:

Die Ordnungsstatistik einer Stichprobe von Werten von wird durch definiertxnx

x(1)x(2)x(n1)x(n).

Sei . Dann wird die kürzeste Hälfte der Daten von Rang bis Rang identifiziert, um über zu minimieren . Dieses Intervall nennen wir die Länge der kürzesten Hälfte.k k + h x ( k + h ) - x ( k ) k = 1 , , n - hh=n/2kk+hx(k+h)x(k)k=1,,nh

Die Kurzschrift wurde von JW Tukey benannt und in der Princeton-Robustheitsstudie von Standortschätzern von Andrews, Bickel, Hampel, Huber, Rogers und Tukey (1972, S. 26) als Mittelwert von . Es erregte Aufmerksamkeit wegen seiner ungewöhnlichen asymptotischen Eigenschaften (S. 50-52): Siehe dazu auch die späteren Berichte von Shorack und Wellner (1986, S. 767-771) sowie Kim und Pollard (1990). Ansonsten fiel es für etwa ein Jahrzehnt schnell außer Sicht. Übrigens zeigt Hampel (1997), dass die Ergebnisse, die der Princeton-Studie zu asymmetrischen Situationen zur Verfügung standen, aber zu diesem Zeitpunkt noch nicht vollständig analysiert wurden, die Kurzschrift besser beleuchten als damals angenommen.x(k),,x(k+h)

Das Interesse an solchen Ideen wurde wiederbelebt, als Rousseeuw (1984) auf der Grundlage eines Vorschlags von Hampel (1975) darauf hinwies, dass der Mittelpunkt der kürzesten Hälfte ist der kleinste Median der Quadrate (LMS) Schätzer der Position für . Siehe Rousseeuw (1984) und Rousseeuw und Leroy (1987) für Anwendungen von LMS und verwandten Ideen auf Regression und andere Probleme. Beachten Sie, dass dieser LMS-Mittelpunkt in einigen neueren Literaturstellen auch als Kurzschrift bezeichnet wird (z. B. David und Nagaraja 2003, S. 223; Maronna, Martin und Yohai 2006, S. 48). Ferner wird die kürzeste Hälfte selbst manchmal auch als Kurzschrift bezeichnet, wie der Titel von Grübel (1988) zeigt.x(x(k)+x(k+h))/2x

Die Länge der kürzesten Hälfte ist ein robustes Maß für die Größe oder Ausbreitung: Siehe Rousseeuw und Leroy (1988), Grübel (1988), Rousseeuw und Croux (1993) sowie Martin und Zamar (1993) für weitere Analysen und Diskussionen.

Die Länge der kürzesten Hälfte in einem Gaußschen (Normalen) mit Mittelwert 0 und Standardabweichung 1 beträgt 1,349 bis 3 dp. Um die Standardabweichung von der beobachteten Länge abzuschätzen, dividieren Sie durch diese Gaußsche Länge.

Es folgen einige breit gefächerte Kommentare zu den Vor- und Nachteilen der Ideen der kürzesten Hälfte, sowohl vom Standpunkt praktischer Datenanalysten als auch von mathematischen oder theoretischen Statistikern. Unabhängig vom Projekt ist es immer ratsam, Kurzergebnisse mit Standardzusammenfassungsmaßen (einschließlich anderer Mittel, insbesondere geometrischer und harmonischer Mittel) zu vergleichen und die Ergebnisse mit Verteilungsgraphen in Beziehung zu setzen. Wenn Sie an der Existenz oder dem Ausmaß der Bimodalität oder Multimodalität interessiert sind, ist es außerdem am besten, direkt geglättete Schätzungen der Dichtefunktion zu betrachten.

  • Einfachheit Die Idee der kürzesten Hälfte ist für Studenten und Forscher, die sich nicht als statistische Spezialisten betrachten, einfach und leicht zu erklären. Es führt direkt zu zwei ziemlich intuitiven Standort- und Ausbreitungsmaßen. Es ist auch relativ einfach, Berechnungen mit primitiven Werkzeugen (Bleistift und Papier, Taschenrechner, Tabellenkalkulationen) von Hand durchzuführen.

  • Verbindungen Die Ähnlichkeiten und Unterschiede zwischen der Länge der kürzesten Hälfte, dem Interquartilbereich und der mittleren absoluten Abweichung vom Median (MAD) (oder im Übrigen dem wahrscheinlichen Fehler) sind unmittelbar. Die kürzesten halben Ideen sind daher mit anderen statistischen Ideen verknüpft, die vielen Datenanalysten bereits bekannt sein sollten.

  • Grafische Interpretation Die kürzeste Hälfte kann leicht mit Standardanzeigen von Verteilungen wie kumulativen Verteilungs- und Quantildiagrammen, Histogrammen und Stamm-Blatt-Diagrammen in Verbindung gebracht werden.

  • Modus Durch Mittelung, wo die Daten am dichtesten sind, führen die Kurzschrift und auch der LMS-Mittelpunkt eine Modusvariante zur Zusammenfassung des Standorts ein. Bei Anwendung auf Verteilungen, die ungefähr symmetrisch sind, liegt die Abkürzung nahe am Mittelwert und Median, ist jedoch widerstandsfähiger als der Mittelwert für Ausreißer in beiden Endpunkten und effizienter als der Median für Verteilungen in der Nähe der Gaußschen (normalen) Form. Bei Anwendung auf Verteilungen, die unimodal und asymmetrisch sind, sind die Kurzschrift und das LMS normalerweise näher am Modus als entweder der Mittelwert oder der Median. Beachten Sie, dass die Idee, den Modus als Mittelpunkt des kürzesten Intervalls zu schätzen, das eine feste Anzahl von Beobachtungen enthält, zumindest auf Dalenius (1965) zurückgeht. Siehe auch Robertson und Cryer (1974), Bickel (2002) und Bickel und Frühwirth (2006) zu anderen Schätzern des Modus. Der Halbabtastmodus-Schätzer von Bickel und Frühwirth ist besonders interessant als rekursive Auswahl der kürzesten Hälfte. Stata-Benutzer können eine Stata-Implementierung von herunterladenssc inst hsmode.

  • Ausreißeridentifikation Eine resistente Standardisierung wie (Wert - Kurzschrift) / Länge kann bei der Identifizierung von Ausreißern hilfreich sein. Zur Diskussion verwandter Ideen siehe Carey et al. (1997) und enthielt Referenzen.

  • Verallgemeinern auf den kürzesten Bruch Die Idee kann auf andere Proportionen als die Hälfte verallgemeinert werden.

Beachten Sie gleichzeitig, dass

  • Nicht für alle Verteilungen geeignet Bei Anwendung auf Verteilungen, die ungefähr J-förmig sind, nähert sich die Kurzschrift dem Mittelwert der unteren Hälfte der Daten an, und der LMS-Mittelpunkt ist eher höher. Bei Anwendung auf Verteilungen, die ungefähr U-förmig sind, liegen der Shorth- und der LMS-Mittelpunkt innerhalb der Hälfte der Verteilung, die zufällig eine höhere durchschnittliche Dichte aufweist. Keines der beiden Verhaltensweisen scheint besonders interessant oder nützlich zu sein, aber es gibt wenig Bedarf an Einzelmoden-ähnlichen Zusammenfassungen für J-förmige oder U-förmige Verteilungen. Für J-Formen ist oder sollte der Modus das Minimum sein, und für U-Formen macht die Bimodalität die Idee eines einzelnen Modus umstritten, wenn nicht sogar ungültig.

  • Krawatten Die kürzeste Hälfte ist möglicherweise nicht eindeutig definiert. Selbst bei gemessenen Daten kann das Runden von gemeldeten Werten häufig zu Bindungen führen. Was mit zwei oder mehr kürzesten Hälften zu tun ist, wurde in der Literatur wenig diskutiert. Beachten Sie, dass gebundene Hälften entweder überlappen oder unzusammenhängend sein können. Unterschiedliche Implementierungen können dies auf leicht unterschiedliche Weise angehen.

  • n = 1 n = 2 n / 2 1 + n / 2 1+n/2nnn=1n=2Die Kurzschrift ist der Durchschnitt der beiden Stichprobenwerte. Ein weiteres Detail dieser Regel ist, dass sie immer eine geringe Mehrheit definiert und so demokratische Entscheidungen über die Daten erzwingt. Es scheint jedoch keinen starken Grund zu geben, als noch einfachere Regel zu verwenden, außer dass alle Autoren auf der Kurzschrift gefolgt zu sein scheinen .n/21+n/2

  • Verwendung mit gewichteten Daten Die Identifizierung der kürzesten Hälfte scheint sich nur ziemlich chaotisch auf Situationen zu erstrecken, in denen Beobachtungen mit ungleichen Gewichten verbunden sind.

  • Länge, wenn die meisten Werte identisch sind Wenn mindestens die Hälfte der Werte in einer Stichprobe einer Konstanten entspricht, ist die Länge der kürzesten Hälfte 0. Wenn beispielsweise die meisten Werte 0 sind und einige größer, ist die Länge der kürzesten Die Hälfte ist nicht besonders nützlich als Maß für die Größe oder Ausbreitung.

Andrews, DF, PJ Bickel, FR Hampel, PJ Huber, WH Rogers und JW Tukey. 1972. Robuste Standortschätzungen: Vermessung und Fortschritte. Princeton, NJ: Princeton University Press.

Bickel, DR 2002. Robuste Schätzer für den Modus und die Schiefe kontinuierlicher Daten. Computational Statistics & Data Analysis 39: 153 & ndash ; 163.

Bickel, DR und R. Frühwirth. 2006. Auf einem schnellen, robusten Schätzer des Modus: Vergleiche mit anderen Schätzern mit Anwendungen. Computational Statistics & Data Analysis 50: 3500-3530.

Carey, VJ, EE Walters, CG Wager und BA Rosner. 1997. Resistente und testbasierte Ausreißer-Zurückweisung: Auswirkungen auf die Gaußsche Inferenz mit einer und zwei Stichproben. Technometrics 39: 320 & ndash; 330.

Christmann, A., U. Gather und G. Scholz. 1994. Einige Eigenschaften der Länge der kürzesten Hälfte. Statistica Neerlandica 48: 209 & ndash; 213.

Dalenius, T. 1965. Der Modus - Ein vernachlässigter statistischer Parameter. Journal, Royal Statistical Society A 128: 110 & ndash; 117.

Grübel, R. 1988. Die Länge der Kurzschrift. Annals of Statistics 16: 619-628.

Hampel, FR 1975. Über Standortparameter hinaus: robuste Konzepte und Methoden. Bulletin, International Statistical Institute 46: 375 & ndash; 382.

Hampel, FR 1997. Einige zusätzliche Anmerkungen zum "Princeton Robustness Year". In Brillinger, DR, LT Fernholz und S. Morgenthaler (Hrsg.) Die Praxis der Datenanalyse: Aufsätze zu Ehren von John W. Tukey. Princeton, NJ: Princeton University Press, 133-153.

Kim, J. und D. Pollard. 1990. Asymptotik der Kubikwurzel. Annals of Statistics 18: 191-219.

Maronna, RA, RD Martin und VJ Yohai. 2006. Robuste Statistik: Theorie und Methoden. Chichester: John Wiley.

Martin, RD und RH Zamar. 1993. Bias robuste Skalenschätzung. Annals of Statistics 21: 991-1017.

Robertson, T. und JD Cryer. 1974. Ein iteratives Verfahren zur Schätzung des Modus. Journal, American Statistical Association 69: 1012 & ndash; 1016.

Rousseeuw, PJ 1984. Kleinster Median der Quadratregression. Journal, American Statistical Association 79: 871 & ndash; 880.

Rousseeuw, PJ und C. Croux. 1993. Alternativen zur mittleren absoluten Abweichung. Journal, American Statistical Association 88: 1273 & ndash; 1283.

Rousseeuw, PJ und AM Leroy. 1987. Robuste Regression und Ausreißererkennung. New York: John Wiley.

Rousseeuw, PJ und AM Leroy. 1988. Ein robuster Skalenschätzer basierend auf der kürzesten Hälfte. Statistica Neerlandica 42: 103 & ndash; 116.

Shorack, GR und JA Wellner. 1986. Empirische Prozesse mit Anwendungen auf die Statistik. New York: John Wiley.

Nick Cox
quelle
Vielen Dank; Ich wusste, dass es einen abgekürzten Begriff gab, als ich die kurze Hälfte erwähnte , konnte mir aber nicht vorstellen, was es war.
Glen_b -Reinstate Monica
3
+6 Erstaunlicher Beitrag: informativ, aufschlussreich und unterhaltsam zu lesen.
whuber
@whuber Vielen Dank; Lob vom Lobenswerten ist in der Tat Lob. Es handelt sich meistens um eine Version der Dokumentation für meine Stata-Implementierung, die von Stata-Benutzern heruntergeladen ssc inst shorthund ansonsten unter econpapers.repec.org/software/bocbocode/s456728.html angezeigt werden kann (Nicht-Stata-Benutzer erhalten dort keine zusätzlichen Informationen ).
Nick Cox
Sehr schön! Entschuldigung, dass es so lange gedauert hat, es als Antwort zu akzeptieren ... es ist ziemlich schnell vom Radar gefallen.
user1269942