Wie würden Sie das Konzept von Mittelwert, Median und Modus einer Liste von Zahlen erklären und warum sind sie für jemanden wichtig, der nur grundlegende arithmetische Fähigkeiten besitzt? Lassen Sie uns nicht die Schiefe, CLT, zentrale Tendenz, ihre statistischen Eigenschaften usw. erwähnen.
Ich habe jemandem erklärt, dass dies nur eine schnelle und schmutzige Möglichkeit ist, eine Liste von Zahlen "zusammenzufassen". Rückblickend ist dies jedoch kaum aufschlussreich.
Irgendwelche Gedanken oder Beispiele aus der realen Welt?
mean
descriptive-statistics
median
mode
Dombey
quelle
quelle
Antworten:
Vielen Dank für diese einfache, aber tiefgreifende Frage zu den grundlegenden statistischen Konzepten von Mittelwert, Median und Modus. Es gibt einige wunderbare Methoden / Demonstrationen, um ein intuitives - und kein arithmetisches - Verständnis dieser Konzepte zu erklären und zu erfassen, aber meines Wissens sind sie leider nicht allgemein bekannt (oder werden in der Schule unterrichtet).
Bedeuten:
1. Gleichgewichtspunkt: Mittelwert als Drehpunkt
Der beste Weg, das Konzept von Mittelwert zu verstehen, besteht darin, es als Gleichgewichtspunkt auf einer einheitlichen Stange zu betrachten. Stellen Sie sich eine Reihe von Datenpunkten vor, z. B. {1,1,1,3,3,6,7,10}. Wenn jeder dieser Punkte auf einer einheitlichen Stange markiert ist und an jedem Punkt gleiche Gewichte angebracht sind (wie unten gezeigt), muss der Drehpunkt auf den Mittelwert der Daten gesetzt werden, damit die Stange ausbalanciert.
Diese visuelle Demonstration führt auch zu einer arithmetischen Interpretation. Die arithmetische Begründung hierfür ist, dass zum Ausgleich des Drehpunkts die gesamte negative Abweichung vom Mittelwert (auf der linken Seite des Drehpunkts) gleich der gesamten positiven Abweichung vom Mittelwert (auf der rechten Seite) sein muss. Daher wirkt der Mittelwert als Ausgleichspunkt in einer Verteilung.
Dieses Bild ermöglicht ein sofortiges Verständnis des Mittelwerts in Bezug auf die Verteilung der Datenpunkte. Eine andere Eigenschaft des Mittelwerts, die aus dieser Demonstration leicht ersichtlich wird, ist die Tatsache, dass der Mittelwert immer zwischen den Min- und Max-Werten in der Verteilung liegt. Auch die Auswirkung von Ausreißern kann leicht verstanden werden - dass das Vorhandensein von Ausreißern den Ausgleichspunkt verschieben und somit den Mittelwert beeinflussen würde.
2. Umverteilungswert (Fair Share)
Ein weiterer interessanter Weg, den Mittelwert zu verstehen, besteht darin, ihn als Umverteilungswert zu betrachten. Diese Interpretation erfordert ein gewisses Verständnis der Arithmetik hinter der Berechnung des Mittelwerts, verwendet jedoch eine anthropomorphe Qualität - nämlich das sozialistische Konzept der Umverteilung -, um das Konzept des Mittelwerts intuitiv zu erfassen.
Bei der Berechnung des Mittelwerts werden alle Werte in einer Verteilung (Wertesatz) aufsummiert und die Summe durch die Anzahl der Datenpunkte in der Verteilung dividiert.
Eine Möglichkeit, die Gründe für diese Berechnung zu verstehen, besteht darin, sich jeden Datenpunkt als Äpfel (oder einen anderen fungiblen Gegenstand) vorzustellen. Mit dem gleichen Beispiel wie zuvor haben wir acht Personen in unserer Stichprobe: {1,1,1,3,3,6,7,10}. Die erste Person hat einen Apfel, die zweite Person hat einen Apfel und so weiter. Wenn man nun die Anzahl der Äpfel so umverteilen möchte, dass sie für alle „fair“ ist, kann man dazu den Mittelwert der Verteilung verwenden. Mit anderen Worten, Sie können jedem vier Äpfel (dh den Mittelwert) geben, damit die Verteilung fair / gleich ist. Diese Demonstration bietet eine intuitive Erklärung für die obige Formel: Das Teilen der Summe einer Verteilung durch die Anzahl der Datenpunkte entspricht der gleichmäßigen Aufteilung der gesamten Verteilung auf alle Datenpunkte.
3. Visuelle Mnemonik
Diese folgenden visuellen Mnemoniken bieten die Interpretation des Mittelwerts auf einzigartige Weise:
Dies ist eine Mnemonik für die Nivellierungswertinterpretation des Mittelwerts. Die Höhe der Querlatte des A ist der Mittelwert der Höhen der vier Buchstaben.
Und dies ist eine weitere Mnemonik für die Gleichgewichtspunktinterpretation des Mittelwerts. Die Position des Drehpunkts ist ungefähr der Mittelwert der Positionen von M, E und verdoppeltem N.
Median
Sobald die Interpretation des Mittelwerts als Ausgleichspunkt auf einer Stange verstanden ist, kann der Median durch eine Erweiterung derselben Idee demonstriert werden: den Ausgleichspunkt an einer Halskette .
Ersetzen Sie die Stange durch eine Schnur, aber behalten Sie die Datenmarkierungen und Gewichte bei. Befestigen Sie dann an den Enden eine zweite Schnur, die länger als die erste ist, um eine Schlaufe [wie eine Halskette] zu bilden, und hängen Sie die Schlaufe über eine gut geschmierte Riemenscheibe.
Nehmen wir zunächst an, dass die Gewichte unterschiedlich sind. Die Riemenscheibe und die Schlaufe balancieren, wenn sich auf jeder Seite die gleiche Anzahl von Gewichten befindet. Mit anderen Worten, die Schleife wird ausgeglichen, wenn der Median der niedrigste Punkt ist.
Beachten Sie, dass sich die Schleife nicht bewegt, wenn eines der Gewichte in der Schleife nach oben geschoben wird, wodurch ein Ausreißer entsteht. Dies zeigt physikalisch das Prinzip, dass der Median von Ausreißern nicht beeinflusst wird.
Modus
Der Modus ist wahrscheinlich das am einfachsten zu verstehende Konzept, da er die grundlegendste mathematische Operation beinhaltet: Zählen. Die Tatsache , dass es zu dem am häufigsten auftretenden Datenpunkt führt zu einem Akronym gleich ist: „ M ost-oft O ccurring D ata E lement“.
Der Modus kann auch als der typischste Wert in einem Satz angesehen werden. (Ein tieferes Verständnis von "typisch" würde zwar zu einem repräsentativen oder durchschnittlichen Wert führen. Es ist jedoch angebracht, "typisch" mit dem Modus gleichzusetzen, der auf der sehr wörtlichen Bedeutung des Wortes "typisch" basiert.)
Quellen:
quelle
Ich muss mich fragen, ob Ihre Kriterien erreichbar sind, da Sie anscheinend maximale Effektivität und Erklärungskraft mit minimalen Materialien wünschen. Aber ein einfaches Beispiel wie
1 1 2 2 2 3 3 4 5 6 15
ermöglicht die sofortige Berechnung des Modus (2), des Medians (3) und des Mittelwerts (44/11) = 4 und zeigt somit, dass sie unterschiedlich sein können.
Sie könnten dann erklären, dass die Ideen des häufigsten Werts, des Werts in der Mitte und des Mittelwerts unterschiedlich sind. Und Komplikationen einführen durch
Das Ändern von Werten zur Anzeige des Modus kann mehrdeutig sein
Verwenden Sie ein Beispiel mit einer geraden Anzahl von Werten, um die Konvention zur Berechnung des Medians zu erläutern
Variieren der Werte in den Schwänzen, um hervorzuheben, was mit dem Mittelwert passiert und warum und warum dies nicht wünschenswert sein kann.
unter Verwendung einfacherer Beispiele, in denen zwei oder drei des mittleren Medianmodus zusammenfallen.
Ich habe in meinem Unterricht keine zentrale Tendenz erwähnt, außer zu sagen, dass es sich um einen Begriff in verschiedenen Literaturen handelt. Ich spreche lieber über das Niveau und wie es quantifiziert werden kann. Umgekehrt denke ich nicht, dass eine ernsthafte Datenanalyse möglich ist, es sei denn, die Menschen haben ein minimales Gefühl für Schiefe, wie es üblicher ist als Symmetrie.
quelle
So erkläre ich sie:
Das (arithmetische) Mittel ist der Punkt, der den gesamten Datensatz berücksichtigt und sich irgendwo "in der Mitte" niederlässt. Lassen Sie sie an eine Punktwolke oder einen Blob im Raum denken: Der Mittelwert ist der Schwerpunkt dieser Punktwolke.
Der Median ist der Punkt, der "auf allen Seiten die gleiche Anzahl von Punkten" aufweist (wobei das Konzept einer "Seite" in 2+ Dimensionen offensichtlich nicht genau definiert ist). Dies stellt eine andere Art von "Mitte" dar und in gewissem Sinne sogar eine intuitivere Art. Wenn man an denselben Blob im Raum denkt, ist es klar, dass der Mittelwert verschoben wird, wenn der Blob schief ist. Diese Einseitigkeit kann jedoch auf zwei Arten erreicht werden: Entweder Sie fügen mehr Punkte in einem Bereich hinzu oder Sie erhöhen die Streuung der Punkte in diesem Bereich. Wenn Sie die Streuung der Punkte in einem Bereich erhöhen, ohne die Anzahl der Punkte zu erhöhen, hat der Median "auf allen Seiten" immer noch die gleiche Anzahl von Punkten und verschiebt sich nicht entsprechend dem Mittelwert.
Sie können dies mit zwei sehr trivialen "Blobs" demonstrieren: und . , während . Ich empfehle jedoch, zuerst mit der geometrischen / visuellen "blob-basierten" Erklärung zu beginnen: Nach meiner Erfahrung ist es einfacher, mit einer handbewegenden grafischen Demonstration zu beginnen und dann zu konkreten Spielzeugbeispielen überzugehen. Ich finde , dass die meisten Menschen (mich eingeschlossen) sind nicht natürlich zahlenorientiert, und beginnend mit einer numerischen Erklärung ist ein Rezept für Verwirrung. Sie können jederzeit zurückgehen und später genauere Definitionen lernen.y ' = ( 1 , 2 , 3 , 4 , 99 ) Mittelwert ( y ) = Median ( y ) Mittelwert ( y ' ) > Median ( y ' )y=(1,2,3,4,5) y′=(1,2,3,4,99) mean(y)=median(y) mean(y′)>median(y′)
Der Modus ist der Punkt, der am wahrscheinlichsten auftritt, wenn Punkte zufällig aus diesem Blob abgetastet werden (wobei erkannt wird, dass dies ein Fudge für kontinuierliche Daten ist). Dies kann, muss aber nicht in der Nähe des Mittelwerts oder Medians liegen.
Sobald Sie diese Konzepte haben erklärt, dann können Sie auf eine „statistische Aussagen“ Demo verschieben:
Die durchgezogene Linie ist der Mittelwert. Die gestrichelte Linie ist der Median. Die gepunktete Linie ist der Modus. Der Mittelwert repräsentiert die Positionen der Datenpunkte entlang der x-Achse, während der Median nur die Anzahl der Datenpunkte auf beiden Seiten widerspiegelt. Der Modus ist nur der Punkt mit der größten Wahrscheinlichkeit, der sich sowohl vom Mittelwert als auch vom Median unterscheidet.
R-Code:
quelle
Der " Mittelwert ", " Median " und " Modus " sind "zentrale Tendenz", auch bekannt als "wahrscheinlichstes Ergebnis" in verschiedenen Bereichen. Sie sind alle "besten Wetten" in verschiedenen "Spielen".
Wahrscheinlichkeit und Statistik ist ein Bereich, der teilweise von Spielern erstellt wurde ( Link , Link ). Wenn Sie zu Pferderennen oder zum Pokertisch gehen, möchten Sie etwas Wissenschaft wissen, das Ihnen hilft, zu gewinnen. Sie haben es auch getan und darüber geschrieben, damit Sie es nicht selbst erfinden müssen.
Bei einem Pferderennen möchten Sie einen Gewinner auswählen. Sie haben keine zukünftigen Informationen, aber Sie kennen einige frühere Informationen. Sie wissen, wie schnell jedes Pferd in den letzten Rennen gelaufen ist. Wenn Sie abschätzen möchten, wie schnell sie wahrscheinlich in ihrem nächsten Rennen laufen werden, können Sie den Mittelwert, auch bekannt als die durchschnittlichen Rennzeiten, berechnen und vergleichen.
Eine weitere zentrale Tendenz ist der "Median", der das Zentrum einer sortierten Liste darstellt. Was wäre, wenn ich einen schrecklichen Tippfehler auf Ihre Liste der Rennzeiten setzen würde und der Wert 1000x länger wäre als alle anderen. Es würde Ihre Schätzung durcheinander bringen. Sie könnten nicht auf das Siegerpferd wetten. Wie gehen Sie das an? Sie können manuell nach diesem einen Wert suchen oder den "Median" verwenden.
Was ist, wenn Sie Karten wie " Blackjack " spielen und herausfinden möchten, ob Sie angesichts der vorherigen Karten eine andere Karte benötigen ? Die gesuchte Karte ist keine 3.14, da Kartennummern ganzzahlige Werte sind. Wie finden Sie heraus, was Ihre beste Wette ist, wenn "Durchschnitt" oder Median nicht aussagekräftig sind? In diesem Fall möchten Sie auf den "Modus" setzen - die wahrscheinlichste Karte, die aus dem Dealer-Stack kommt.
In allen drei Fällen ist die zentrale Tendenz nur eine andere Art, "beste Wette" zu sagen.
Wenn Sie nicht nur die zentrale Tendenz bei Ihren Wetten berücksichtigen möchten, dh wenn Sie wetten möchten, damit Sie die Auswirkungen eines Verlusts reduzieren und gleichzeitig die Gewinne maximieren können, müssen Sie sich die "Variationstendenzen" ansehen. Dinge wie Standardabweichung, Interquantilbereiche oder alternative Modi und deren Frequenzen werden verwendet, um die maximalen Verluste zu minimieren und gleichzeitig die wahrscheinlichen Gewinne zu maximieren.
quelle
Ich denke, es ist nützlich, dieses Konzept zu erklären, wenn mehrere Mittelwerte, Mediane und Modi berücksichtigt werden. Diese Werte existieren nicht im luftleeren Raum.
Hier ist zum Beispiel, wie ich meine erklären würde.
Angenommen, Sie haben 2 Kisten Wassermelonen (Kiste 1 und 2). Es ist versiegelt, so dass Sie die Wassermelonen im Inneren nicht sehen können und daher ihre Größe nicht kennen. Sie kennen jedoch das Gesamtgewicht der Wassermelonen in jeder Kiste und jede enthält die gleiche Anzahl von Wassermelonen. Daraus können Sie die mittleren Gewichte jeder Kiste mit Wassermelonen (M1 und M2) berechnen.
Nachdem Sie nun zwei unterschiedliche Mittelwerte M1 und M2 haben, können Sie die einzelnen Inhalte grob vergleichen. Wenn M1> M2 ist, ist eine zufällig ausgewählte Wassermelone aus Kiste 1 wahrscheinlich schwerer als eine aus Kiste 2 gepflückte.
Natürlich würde ich gerne Kommentare zu dieser Perspektive abgeben.
quelle