Was ist die Geschichte der Box-Plots und wie hat sich das Design von „Box and Whiskers“ entwickelt?

19

Viele Quellen datieren das klassische „Box - Plot“ Design John Tukey und seine „schematische Handlung“ von 1970. Das Design relativ statisch geblieben zu sein scheint seither mit Edward Tufte des abgespeckte Version des Box - Plot Fehlern zu fangen, während Geigenhandlungen - obwohl eine informativere Variante der Boxhandlung - sind nach wie vor weniger beliebt. Clevelands Vorschlag, dass Whisker bis zum 10. und 90. Perzentil reichen, hat einige Befürworter, siehe Cox (2009) , ist aber nicht die Norm.

Hadley Wickham und Lisa Stryjewski haben eine unveröffentlichte Abhandlung über die Geschichte der Boxplots geschrieben , die jedoch nicht die historischen Vorläufer der Boxplots zu behandeln scheint.

Wie kam es also zur aktuellen, allgegenwärtigen Verschwörung von "Box and Whiskers"? Aus welcher Art von Datenvisualisierung ist sie hervorgegangen, hatten diese früheren Entwürfe wesentliche Vorteile, und warum scheinen sie im Gebrauch von Tukeys Schema so umfassend in den Schatten gestellt worden zu sein? Eine illustrierte Antwort wäre ein Bonus, aber auf eine Referenz zu verweisen, die historisch tiefer geht als Wickham und Stryjewski, wäre nützlich.

Verweise

Silberfisch
quelle
1
Einige relevante Diskussion einer Reihe von Vorläufern hier: stats.stackexchange.com/questions/125521/... ... Tukey war bewusst , Mary Spears Arbeit , aber es ist möglich , dass er keine der früheren gesehen haben kann
Glen_b -Reinstate Monica
Danke @Glen_b, das war in der Tat die Diskussion, die ich gelesen habe, die diese Frage inspiriert hat, aber ich habe 4 Jahre gebraucht, um mich darum zu kümmern, und ich konnte die Diskussion nicht aufspüren! (Schade, dass Kommentare in der Website-Suche nicht angezeigt werden. Daher ist es hilfreich, wenn Sie versuchen, die richtigen Fragen und Antworten zu finden.)
Silverfish
1
Ich benutze die Google-Suche mit site:stats.stackexchange.comSet, um Kommentare aufzuspüren. Ich konnte mich an genug Details erinnern (dass es sich um eine Diskussion zwischen Nick und mir über Boxplots handelte und dass ich Schmid erwähnt hatte), um sie zum ersten Mal zu sehen.
Glen_b
1
Tangentiale Bemerkung zu Boxplot-Ausreißern. Zwei Regeln sind weit verbreitet. Die häufigste Standardeinstellung (in R und anderer Software) ist, dass Beobachtungen unter oder über als Ausreißer bezeichnet werden. die "1.5IQR-Regel". In früheren Versionen verwendete Minitab auch eine Regel, die die extremeren Ausreißer als "wahrscheinliche Ausreißer" und die weniger extremen als "mögliche Ausreißer" bezeichnet. Zumindest für grob normale Daten zeigen beide Regeln Prozentsätze von Ausreißern, die mit Stichprobengröße stark variierenEs gibt Beweise aus Simulationen, dass eine Regel bis in die 1000er stabiler wäre. Q 3 + 1,5 I Q R 3 I Q R n . 2,25 I Q RQ11.5IQRQ3+1.5IQR3IQRn.2.25IQR
BruceET
1
github.com/hadley/boxplots-paper enthält viel Material, z. B. Berichte anonymer Gutachter aus einer Zeitschrift (? Amerikanischer Statistiker_) (kurz und entmutigend) und unabhängige, sich jedoch überschneidende, nicht angeforderte Gutachten von David Hoaglin und mir (beide sehr viel ausführlicher).
Nick Cox

Antworten:

18

Zusammenfassung des Vorstandsvorsitzenden

Die Geschichte ist viel länger und komplizierter als viele Leute denken.

Zusammenfassung

Die Geschichte dessen, was Tukey Box-Plots nannte, ist verwickelt mit der Geschichte dessen, was heute oft als Punkt- oder Streifen-Plots bezeichnet wird (Dutzende anderer Namen) und mit Darstellungen der empirischen Quantilfunktion.

Box-Plots in weit verbreiteten Formen sind am besten durch die Arbeit von John Wilder Tukey (1970, 1972, 1977) bekannt.

Die Idee, den Median und die Quartile als einfache Zusammenfassungen darzustellen - oft aber nicht immer mit Punkten, die alle Werte anzeigen - geht jedoch zumindest auf die vom Geographen Percy Robert Crowe (1933) eingeführten Dispersionsdiagramme (viele Variantennamen) zurück. Diese waren ein Grundnahrungsmittel für Geographen und wurden ab Ende der 1930er Jahre in vielen Lehrbüchern und Forschungsarbeiten verwendet.

Bibby (1986, S. 56, 59) gab noch frühere Hinweise auf ähnliche Ideen, die Arthur Lyon Bowley (später Sir Arthur) in seinen Vorlesungen um 1897 und auf seine Empfehlung (Bowley, 1910, S. 62; 1952, S. 73) gelehrt hatte ) Minimum und Maximum sowie 10, 25, 50, 75 und 90% Punkte als Grundlage für eine grafische Zusammenfassung verwenden.

Range Bars, die Extreme und Quartile zeigen, werden oft Mary Eleanor Spear (1952) zugeschrieben, aber in meiner Lektüre zitieren weniger Leute Kenneth W. Haemer (1948). Haemers Artikel über statistische Grafiken im amerikanischen Statistiker um 1950 waren erfinderisch und haben einen kritischen Biss und sind nach wie vor eine Lektüre wert. (Viele Leser werden über jstor.org darauf zugreifen können.) Im Gegensatz dazu waren Spears Bücher (Spear 1969 ist eine Aufarbeitung) zugänglich und vernünftig, aber bewusst einführend und nicht innovativ oder wissenschaftlich.

Varianten von Box-Plots, in denen sich die Whisker auf ausgewählte Perzentile erstrecken, sind häufiger als viele Leute zu glauben scheinen. Wieder wurden ab den 1930er Jahren gleichwertige Grundstücke von Geographen verwendet.

Was in Tukeys Version der Box-Plots am originellsten ist, ist in erster Linie ein Kriterium für die Identifizierung von Punkten in den Tails, die separat gezeichnet und als erwägenswert identifiziert werden müssen - und für die Kennzeichnung, dass eine Variable auf einer transformierten Skala analysiert werden sollte. Seine 1,5-IQR-Faustregel ergab sich erst nach vielem Experimentieren. Es hat sich in einigen Händen zu einer strengen Regel für das Löschen von Datenpunkten entwickelt, was nie Tukeys Absicht war. Eine ausdrucksstarke, einprägsame Namens-Box-Handlung hat nicht dazu beigetragen, dass diese Ideen eine viel größere Wirkung entfalten. Dispersionsdiagramm ist dagegen ein eher trüber und langweiliger Begriff.

Die relativ lange Liste der Verweise hier erhebt möglicherweise entgegen dem Anschein keinen Anspruch auf Vollständigkeit. Ziel ist es lediglich, einige Vorläufer und Alternativen des Boxplots zu dokumentieren. Spezifische Referenzen können hilfreich sein für detaillierte Anfragen oder wenn sie sich in der Nähe Ihres Fachgebiets befinden. Umgekehrt kann das Erlernen von Praktiken in anderen Bereichen von Vorteil sein. Die grafische - nicht nur kartografische - Kompetenz der Geographen wurde oft unterschätzt.

Mehr Details

Hybrid-Dot-Box-Diagramme wurden von Crowe (1933, 1936), Matthews (1936), Hogg (1948), Monkhouse und Wilkinson (1952), Farmer (1956), Gregory (1963), Hammond und McCullagh (1974), Lewis verwendet (1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild und Seber (2000), Quinn und Keough (2002), Young et al. (2006) und Hendry und Nielsen (2007) und viele andere. Siehe auch Miller (1953, 1964).

Das Zeichnen von Whiskern auf bestimmte Perzentile anstatt auf Datenpunkte innerhalb so vieler IQR der Quartile wurde von Cleveland (1985) betont, aber von Matthews (1936) und Grove (1956), die den interoktilen Bereich zwischen dem ersten und dem letzten planten, vorweggenommen siebte Oktile, sowie der Bereich und Interquartilbereich. Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt and Johnson (2009, 2011) und Davino et al. (2014) zeigten Mittelwerte sowie Minimum, Quartile, Median und Maximum. Schmid (1954) zeigte zusammenfassende Diagramme mit Median, Quartilen und 5 und 95% -Punkten. Bentley (1985, 1988), Davis (2002), Spence (2007, 2014) und Motulsky (2010, 2014, 2018) zeichneten Whisker auf 5 und 95% Punkte. Morgan und Henrion (1990, S. 221, 241), Spence (2001, S. 36) und Gotelli und Ellison (2004, 2013, S. 72, 110, 213). 416) Whisker auf 10% und 90% Punkte aufgetragen. Harris (1999) zeigte Beispiele von sowohl 5 als auch 95% und 10 und 90% Punkten. Altman (1991, S. 34, 63) und Greenacre (2016) zeichneten Whisker auf 2,5% und 97,5% Punkte auf. Reimann et al. (2008, S. 46-47) zeichneten Whisker auf 5% und 95% und 2% und 98% Punkte auf.

Parzen (1979a, 1979b, 1982) hybridisierte Box- und Quantil-Diagramme als Quantil-Box-Diagramme. Siehe auch (zB) Shera (1991), Militký und Meloun (1993), Meloun und Militký (1994). Beachten Sie jedoch, dass der Quantil-Box-Plot von Keen (2010) nur ein Box-Plot ist, bei dem sich die Whisker bis in die Extreme erstrecken. Im Gegensatz dazu sind die Quantil-Box-Plots von JMP offensichtlich Box-Plots mit Markierungen bei 0,5%, 2,5%, 10%, 90%, 97,5%, 99,5%: siehe Sall et al. (2014, S. 143-4).

Hier einige Hinweise zu Varianten von Quantilbox-Plots.

(A) Das Box-Perzentil-Diagramm von Esty und Banfield (2003) zeichnet dieselben Informationen unterschiedlich auf, zeichnet Daten als durchgezogene Linien und erzeugt eine symmetrische Anzeige, in der die vertikale Achse Quantile und die horizontale Achse nicht die Position , sondern beide darstellt min ( ) und sein Spiegelbild min ( ). Kleinigkeiten: In ihren Papierplotpositionen werden sie falsch als "Perzentile" bezeichnet. Siehe auch Martinez et al. (2011, 2017), was diese Verwirrung aufrechterhält.pp,1pp,1p

Die Idee der Darstellung von min ( ) (oder seines prozentualen Äquivalents) erscheint unabhängig in (B) "Gebirgszeichnungen" (Krouwer 1992; Monti 1995; Krouwer und Monti 1995; Goldstein 1996) und in (C) Zeichnungen von die "gespiegelte empirische Verteilungsfunktion" (Huh 1995). Siehe auch Xue und Titterington (2011) für eine detaillierte Analyse der Faltung einer Verteilungsfunktion an einem beliebigen Quantil. p,1p

Aus der von mir betrachteten Literatur geht hervor, dass sich keiner dieser Fäden - Quantil-Box-Diagramme oder die späteren Varianten (A) (B) (C) - gegenseitig zitiert.

!!! Zum 3. Oktober 2018 müssen Details für einige Referenzen in der nächsten Ausgabe angegeben werden.

Altman, DG 1991. Praktische Statistik in der medizinischen Forschung. London: Chapman und Hall.

Bentley, JL 1985. Programmierperlen: Auswahl. Mitteilungen der ACM 28: 1121-1127.

Bentley, JL 1988. Weitere Programmierperlen: Bekenntnisse eines Programmierers. Reading, MA: Addison-Wesley.

Bibby, J. 1986. Anmerkungen zur Geschichte des Statistikunterrichts. Edinburgh: John Bibby (Bücher).

Bowley, AL 1910. Ein elementares Handbuch der Statistik. London: Macdonald und Evans. (siebte Ausgabe 1952)

Cleveland, WS 1985. Elemente der grafischen Darstellung von Daten. Monterey, Kalifornien: Wadsworth.

Crowe, PR 1933. Die Analyse der Regenwahrscheinlichkeit: Eine grafische Methode und ihre Anwendung auf europäische Daten. Scottish Geographical Magazine 49: 73 & ndash; 91.

Crowe, PR 1936. Das Niederschlagsregime der Western Plains. Geographical Review 26: 463-484.

Davis, JC 2002. Statistik und Datenanalyse in der Geologie. New York: John Wiley.

Dickinson, GC 1963. Statistisches Mapping und die Darstellung von Statistiken. London: Edward Arnold. (zweite Auflage 1973)

Dury, GH 1963. Die East Midlands und der Peak. London: Thomas Nelson.

Bauer, BH 1956. Niederschlag und Wasserversorgung in der Trockenzone von Ceylon. In Steel, RW und CA Fisher (Hrsg.) Geographical Essays on British Tropical Lands. London: George Philip, 227-268.

Gregory, S. 1963. Statistical Methods and the Geographer. London: Longmans. (spätere Ausgaben 1968, 1973, 1978; Verlag später Longman)

Grove, AT 1956. Bodenerosion in Nigeria. In Steel, RW und CA Fisher (Hrsg.) Geographical Essays on British Tropical Lands. London: George Philip, 79-111.

Haemer, KW 1948. Range-Bar-Charts. Amerikanischer Statistiker 2 (2): 23.

Hendry, DF und B. Nielsen. 2007. Ökonometrische Modellierung: Ein Wahrscheinlichkeitsansatz. Princeton, NJ: Princeton University Press.

Hogg, WH 1948. Niederschlagsverteilungsdiagramme: eine Diskussion ihrer Vor- und Nachteile. Geography 33: 31 & ndash; 37.

Ibrekk, H. und MG Morgan. 1987. Grafische Übermittlung ungewisser Mengen an nichttechnische Personen. Risk Analysis 7: 519 & ndash; 529.

Johnson, BLC 1975. Bangladesh. London: Heinemann Educational.

Keen, KJ 2010. Grafiken für Statistik und Datenanalyse mit R. Boca Raton, FL: CRC Press. (2. Auflage 2018)

Lewis, CR 1975. Die Analyse von Veränderungen im städtischen Status: eine Fallstudie in Mittelwales und im mittleren walisischen Grenzgebiet. Transaktionen des Institute of British Geographers 64: 49-65.

Martinez, WL, AR Martinez und JL Solka. 2011. Explorative Datenanalyse mit MATLAB. Boca Raton, FL: CRC Press.

Matthews, HA 1936. Eine neue Ansicht einiger bekannter indischer Regenfälle. Scottish Geographical Magazine 52: 84 & ndash; 97.

Matthews, JA 1981. Quantitative und statistische Ansätze zur Geographie: Ein praktisches Handbuch. Oxford: Pergamon.

Meloun, M. und J. Militký. 1994. Computergestützte Datenverarbeitung in der analytischen Chemometrie. I. Explorative Analyse univariater Daten. Chemical Papers 48: 151 & ndash; 157.

Militký, J. und M. Meloun. 1993. Einige grafische Hilfsmittel für die univariate explorative Datenanalyse. Analytica Chimica Acta 277: 215 & ndash; 221.

Miller, AA 1953. Die Haut der Erde. London: Methuen. (2. Auflage 1964)

Monkhouse, FJ und HR Wilkinson. 1952. Karten und Diagramme: Ihre Zusammenstellung und Konstruktion. London: Methuen. (spätere Ausgaben 1963, 1971)

Morgan, MG und M. Henrion. 1990. Unsicherheit: Ein Leitfaden zum Umgang mit Unsicherheit bei der quantitativen Risiko- und Politikanalyse. Cambridge: Cambridge University Press.

Myatt, GJ 2007. Daten verstehen: Ein praktischer Leitfaden für explorative Datenanalyse und Data Mining. Hoboken, NJ: John Wiley.

Myatt, GJ und Johnson, WP 2009. Daten verstehen II: Ein praktischer Leitfaden für Datenvisualisierung, erweiterte Data Mining-Methoden und Anwendungen. Hoboken, NJ: John Wiley.

Myatt, GJ und Johnson, WP 2011. Daten verstehen III: Ein praktischer Leitfaden zum Entwerfen interaktiver Datenvisualisierungen. Hoboken, NJ: John Wiley.

Ottaway, B. 1973. Dispersionsdiagramme: Ein neuer Ansatz zur Anzeige von Kohlenstoff-14-Daten. Archäometrie 15: 5-12.

Parzen, E. 1979a. Nichtparametrische statistische Datenmodellierung. Journal, American Statistical Association 74: 105 & ndash; 121.

Parzen, E. 1979b. Eine Dichte-Quantil-Funktionsperspektive auf robuste Schätzungen. In Launer, RL und GN Wilkinson (Hrsg.) Robustness in Statistics. New York: Academic Press, 237-258.

Parzen, E. 1982. Datenmodellierung unter Verwendung von Quantil- und Dichte-Quantil-Funktionen. In Tiago de Oliveira, J. und Epstein, B. (Hrsg.) Einige neuere Fortschritte in der Statistik. London: Academic Press, 23-52.

Quinn, GP und MJ Keough. 2002. Experimentelles Design und Datenanalyse für Biologen. Cambridge: Cambridge University Press.

C. Reimann, P. Filzmoser, R. G. Garrett und R. Dutter. 2008. Statistische Datenanalyse erklärt: Angewandte Umweltstatistik mit R. Chichester: John Wiley.

Sall, J., A. Lehman, M. Stephens und L. Creighton. 2014. JMP Start Statistics: Ein Handbuch zur Statistik und Datenanalyse mit JMP. Cary, NC: SAS-Institut.

Shera, DM 1991. Einige Anwendungen von Quantil-Plots zur Verbesserung der Datenpräsentation. Informatik und Statistik 23: 50-53.

Spear, ME 1952. Diagrammstatistik. New York: McGraw-Hill.

Spear, ME 1969. Praktische Diagrammtechniken. New York: McGraw-Hill.

Tukey, JW 1970.
Explorative Datenanalyse. Begrenzte vorläufige Ausgabe. Band I. Reading, MA: Addison-Wesley.

Tukey, JW 1972. Einige grafische und semi-grafische Anzeigen. In Bancroft, TA und Brown, SA (Hrsg.) Statistical Papers zu Ehren von George W. Snedecor. Ames, IA: Iowa State University Press, 293-316. (auch zugänglich unter http://www.edwardtufte.com/tufte/tukey )

Tukey, JW 1977. Exploratory Data Analysis. Reading, MA: Addison-Wesley.

Wild, CJ und GAF ​​Seber. 2000. Zufallsbegegnungen: Ein erster Kurs in Datenanalyse und Inferenz. New York: John Wiley.

Nick Cox
quelle
Ich habe anderes Material über Box-Perzentil-Diagramme, Bergdiagramme und andere Hybridformen, das später hinzugefügt werden soll.
Nick Cox
Ich freue mich sehr über diese Antwort, danke an Nick, der sich auf die Ergänzungen zu den Alternativen und Hybriden freut. Ich denke, es ist wahrscheinlich fair zu sagen, dass "Box-Plots" und "Freunde" eine "Familie" von Datenvisualisierungen bilden, obwohl ich nicht weiß, wie diese Familie heißen soll
Silverfish
Vielen Dank! Wenn der Besitz von Linien oder anderen Markierungen, die den Median und die Quartile anzeigen, eine Box definiert, gab es Box-Diagramme, lange bevor Tukey sie benannte, und ich bin zuversichtlich, dass er nie etwas anderes behauptete. Viele Miniaturgeschichten in Lehrbüchern und anderswo scheinen jedoch in diesem Punkt nachdrücklich zu sein; Meistens handelt es sich dabei nur um ein Mem, das sich ohne Beweise wiederholt, wie die Geschichte, dass Lemminge als kollektiver Selbstmord von Klippen springen. Viele der Alternativen Plots boxen zeigen nicht einmal eine Box in irgendeinem Sinn, so dann das Feld weit offen schließen jede grafische Darstellung der univariate Verteilungen.
Nick Cox