Ich glaubte, dass die folgenden Boxplots als "die meisten Männer sind schneller als die meisten Frauen" (in diesem Datensatz) interpretiert werden könnten, hauptsächlich weil die mittlere Männerzeit niedriger war als die mittlere Frauenzeit. Aber der EdX-Kurs zu R und Statistik- Quiz hat mir gesagt, dass das falsch ist. Bitte helfen Sie mir zu verstehen, warum meine Intuition falsch ist.
Hier ist die Frage:
Betrachten wir eine zufällige Auswahl von Finishern des New York City Marathons im Jahr 2002. Dieser Datensatz befindet sich im UsingR-Paket. Laden Sie die Bibliothek und dann den Datensatz nym.2002.
library(dplyr) data(nym.2002, package="UsingR")
Verwenden Sie Boxplots und Histogramme, um die Endzeiten von Männern und Frauen zu vergleichen. Welche der folgenden Aussagen beschreibt den Unterschied am besten?
- Männer und Frauen haben die gleiche Verteilung.
- Die meisten Männer sind schneller als die meisten Frauen.
- Männchen und Weibchen haben ähnliche rechtsverzerrte Verteilungen wie das erstere, 20 Minuten nach links verschoben.
- Beide Verteilungen sind normalerweise mit einer Differenz von durchschnittlich etwa 30 Minuten verteilt.
Hier sind die NYC-Marathonzeiten für Männer und Frauen als Quantile, Histogramme und Boxplots:
# Men's time quantile
0% 25% 50% 75% 100%
147.3333 226.1333 256.0167 290.6375 508.0833
# Women's time quantile
0% 25% 50% 75% 100%
175.5333 250.8208 277.7250 309.4625 566.7833
Antworten:
Ich denke, dass der Grund, warum Sie als falsch markiert wurden, nicht so sehr darin besteht, dass die Antwort, die Sie auf die Mehrwahlfrage gegeben haben, falsch war, sondern dass Option 3 "Männer und Frauen haben ähnliche rechtsverzerrte Verteilungen wie die erstere, 20 Minuten nach links verschoben". wäre eine bessere Wahl gewesen, da es auf der Grundlage der bereitgestellten Informationen informativer ist.
quelle
Hier ist das kleinste Gegenbeispiel, das ich finden konnte:
A (
[1, 4, 10])
und B ([0, 6, 9]
) haben den gleichen Durchschnitt (5
)B hat einen größeren Median (
6
) als A (4
)Hier ist ein weiteres Beispiel mit 4 Elementen:
quelle
Natürlich sind andere Interpretationen des Ausdrucks möglich (das ist schließlich Mehrdeutigkeit), und einige dieser anderen Möglichkeiten stimmen möglicherweise mit Ihrer Argumentation überein.
[Wir haben auch die Frage, ob es sich um Stichproben oder Populationen handelt ... "Die meisten Männer [...] die meisten Frauen" scheinen eine Bevölkerungsaussage zu sein (über eine Population potenzieller Zeiten), aber wir haben nur Zeiten beobachtet dass wir anscheinend als Stichprobe behandelt werden, also müssen wir vorsichtig sein, wie weit wir den Anspruch erheben.]
[Ich sage nicht, dass Sie sich irren , wenn Sie denken, dass der Anteil zufälliger MF-Paare, bei denen der Mann schneller war als die Frau, mehr als die Hälfte beträgt - Sie haben mit ziemlicher Sicherheit Recht. Ich sage nur, dass Sie es nicht durch einen Vergleich der Mediane erkennen können. Sie können es auch nicht anhand des Anteils in jeder Stichprobe über oder unter dem Median der anderen Stichprobe erkennen. Sie müssten einen anderen Vergleich anstellen.]
Beispiel:
Datensatz A:
Datensatz B:
Datensatz C:
(Die Daten sind hier , werden dort aber für einen anderen Zweck verwendet - meiner Erinnerung nach habe ich diese selbst erstellt.)
Beachten Sie, dass der Anteil von A <B 2/3 beträgt, der Anteil von A <C 5/9 beträgt und der Anteil von B <C 2/3 beträgt. Sowohl A gegen B als auch B gegen C sind bei 5% signifikant, aber wir können jedes Signifikanzniveau erreichen, indem wir einfach genügend Kopien der Proben hinzufügen. Wir können sogar Bindungen vermeiden, indem wir die Samples duplizieren, aber ausreichend kleinen Jitter hinzufügen (ausreichend kleiner als die kleinste Lücke zwischen den Punkten).
Die Stichprobenmediane gehen in die andere Richtung: Median (A)> Median (B)> Median (C)
Wiederum konnten wir durch Wiederholen der Proben eine Signifikanz für einen Vergleich der Mediane - mit jedem Signifikanzniveau - erreichen.
Um es mit dem gegenwärtigen Problem in Verbindung zu bringen, stellen Sie sich vor, dass A "Frauenzeit" und B "Männerzeit" ist. Dann ist die mittlere Männerzeit schneller, aber ein zufällig ausgewählter Mann ist 2/3 der Zeit langsamer als eine zufällig ausgewählte Frau.
Ausgehend von den Stichproben A und C können wir einen größeren Datensatz (in R) wie folgt generieren:
Der Median von F liegt bei 16,25, während der Median von M bei 11,25 liegt, aber der Anteil der Fälle, in denen F <M ist, liegt bei 5/9.
[Wenn wir die n / 3 durch eine Binomialvariable mit den Parametern ersetzenn 13
quelle
Die folgenden Abbildungen stammen aus diesem Blogbeitrag , der eine wichtige praktische Anwendung dieser Ideen veranschaulicht .
Die Standardisierung bietet ein leistungsstarkes Gerät zum Vergleichen von zwei Verteilungen. Die folgenden 3 Zahlen vergleichen die Körpergröße von 130 Monate alten Jungen und Mädchen aus dem englischen National Child Measurement Program (NCMP). (Dies war das modale Alter in diesem Datensatz. Ich habe es einfach ausgewählt, um die meisten Daten und damit die glattesten Diagramme innerhalb einer einzelnen Alterskohorte zu erhalten.)
Abbildung 1: Körpergröße von Jungen und Mädchen im Alter von 130 Monaten nach dem National Child Measurement Program (NCMP) in England
Abbildung 2: Perzentile der Körpergröße für Jungen und Mädchen im Alter von 130 Monaten. Quelle: Englisch NCMP
Abbildung 3: Größenverteilung von 130 Monate alten Mädchen im Verhältnis zu gleichaltrigen Jungen.
In der letzten dieser Figuren wurde der Höhenvergleich nach Jungenhöhen standardisiert . Wenn Sie also entlang der gepunkteten grauen Linien in Abbildung 3 lesen, können Sie folgende Aussagen treffen:
Ein Punkt möglicher Verwirrung in dieser Handlung verdient Erwähnung. Obwohl die 45 ° -Linie der Jungen auf dem Grundstück „höher“ ist als die Magentakurve der Mädchen, entspricht diese Beobachtung dennoch der bekannten Tatsache, dass die Mädchen in diesem Alter (dies sind Schüler der 6. Klasse) in der Regel größer sind als die Jungen . Beachten Sie, dass sich diese Größe in der Tatsache widerspiegelt, dass die Magentakurve relativ zur blauen Linie nach rechts verschoben ist .
Ihre ursprüngliche Frage kann nun geometrisch neu formuliert werden, als eine Frage, ob Sie die Magentakurve von Abbildung 3 zeichnen könnten, um gleichzeitig (a) die postulierte Beziehung zwischen den Medianen und (b) die leicht schwer fassbare Beziehung zu @Glen_b zu erreichen (richtig, glaube ich) in seiner Antwort erklärt. Ich frage mich, ob Verteilungsdiskontinuitäten (Punktmassen in den Dichten) die Bereitstellung eines "pathologischen" Falls ermöglichen könnten. Ich vermute, dass ein solcher pathologischer Fall die "Ausnahme sein wird, die die Regel bestätigt".
Wenn andererseits die tatsächliche Absicht von "am meisten" "> 50%" war, könnte man erwarten, dass der genauere Ausdruck "eine Mehrheit von" verwendet wurde. Wenn mir jemand sagt, dass "wahrscheinlich" etwas passieren wird, würde ich denken, dass auf eine subjektive Wahrscheinlichkeit von 60% oder mehr angespielt wird. Ebenso bedeutet "am meisten" für mich etwas mehr als 70–80%. Aus der obigen Darstellung geht klar hervor, dass wenn die meisten als ein Kriterium angesehen werden, das strenger als 52,5% ist, man nicht sagen kann: "Die meisten Mädchen [haben die Eigenschaft, dass sie] größer sind als die meisten Jungen." Ich frage mich, ob ein Teil der Begründung für die Quizfrage darin bestand, eine Prüfung von Wörtern anzuregen, die sich auf numerische Begriffe beziehen. (Wenn Sie der Meinung sind, dass dies alles etwas albern ist, betrachten Sie diese GrafikenDies zeigt, wie Menschen dazu neigen, verschiedene probabilistische Wörter und Phrasen zu interpretieren.) Vielleicht war es auch die Absicht, den Punkt zu unterstreichen, dass in realen Verteilungen viele Variationen vorhanden sind und dass eine einzige Statistik (Median, Mittelwert, Was-Haben-) Sie) werden selten breite, umfassende Aussagen unterstützen.
quelle