"Varianz" intuitiv verstehen

81

Was ist der sauberste und einfachste Weg, um jemandem das Konzept der Varianz zu erklären? Was bedeutet es intuitiv? Wenn man dies seinem Kind erklären soll, wie würde man dann vorgehen?

Es ist ein Konzept, das ich nur schwer artikulieren kann - insbesondere, wenn ich Varianz mit Risiko in Beziehung setze. Ich verstehe es mathematisch und kann es auch so erklären. Aber wenn man Phänomene der realen Welt erklärt, wie kann man Varianz und ihre Anwendbarkeit sozusagen in der "realen Welt" verstehen.

Angenommen, wir simulieren eine Investition in eine Aktie mithilfe von Zufallszahlen (Würfeln oder Verwenden eines Excel-Blatts spielt keine Rolle). Wir erhalten eine gewisse Rendite, indem wir jede Instanz der Zufallsvariablen mit einer gewissen Änderung der Rendite verknüpfen. Z.B.:

Eine 1 zu würfeln bedeutet eine Änderung der Investition um 0,8 USD pro 1 USD , eine Änderung um 5 USD pro 1 USD und so weiter.

Wenn diese Simulation nun etwa 50 Mal (oder 20 oder 100 Mal) ausgeführt wird, erhalten wir einige Werte und den Endwert der Investition. Was sagt uns die Varianz eigentlich, wenn wir sie aus dem obigen Datensatz berechnen würden? Was "sieht" man - Wenn sich herausstellt, dass die Varianz 1,7654 oder 0,88765 oder 5,2342 beträgt, was bedeutet das überhaupt? Was habe / kann ich bei dieser Investition beachten? Welche Schlüsse kann ich ziehen - in Laienbegriffen.

Bitte ergänzen Sie die Frage auch um die Standardabweichung! Obwohl ich der Meinung bin, dass es "leichter" zu verstehen ist, wäre etwas, das dazu beiträgt, es auch "intuitiv" verständlich zu machen, sehr dankbar!

PhD
quelle
3
Sollten wir diese Frage nicht mit der gleichen Frage zusammenführen, die wir letztes Jahr gestellt haben?
whuber
1
@whuber ich denke diese sollten zusammengeführt werden. Wenn Sie mehrere Male dieselbe Frage haben (auch wenn der Kontext hier unterschiedlich ist), verringert sich die durchschnittliche Qualität der Antworten.
Robin Girard
2
Ich bin damit einverstanden, dass es zusammengeführt wird, aber ich weiß, wie man die Varianz berechnet, und es wird auch in der Statistik verwendet. Ich möchte in der Lage sein, dieses Konzept für Leute zu artikulieren, die nichts darüber wissen und es dauert eine lange Zeit, dies zu tun und daher die Frage. Die Absicht unterscheidet sich von der Frage auf SD, IMHO
PhD
2
Ich glaube nicht, dass einer von Ihnen das so gut beantwortet, wie es ein Laie verstehen würde. Ich sehe viele Annahmen und fast jede Antwort endet mit etwas, das interpretiert werden muss. Ich beschwere mich nicht, ich versuche nur darauf hinzuweisen. Ich kann die Frage auch nicht einfach beantworten. Vielleicht ist es zu schwierig?
Ich glaube, keine der folgenden Antworten hat die Frage hier beantwortet. Die Frage, wie ich sie interpretiere, betrifft mehr die Varianz als Zahl, wenn sie als groß oder klein betrachtet wird. Die obere Antwort unten befasst sich beispielsweise mit der Frage, was große Varianz gegenüber kleiner Varianz bedeutet. Wenn ich Ihnen einen Datensatz gebe, den Sie sich nicht so gut vorstellen können, dass Sie sich auf die Zahlen verlassen müssen, wie können Sie dann feststellen, ob die Varianz groß / klein ist?
user31415

Antworten:

70

Ich würde wahrscheinlich eine ähnliche Analogie verwenden wie die, die ich gelernt habe, um "Laien" beim Einführen des Konzepts von Voreingenommenheit und Varianz zu bezeichnen: die Dartscheibe-Analogie. Siehe unten:

Bildbeschreibung hier eingeben

Das obige Bild stammt aus der Enzyklopädie des maschinellen Lernens , und die Referenz innerhalb des Bildes ist Moore und McCabes "Einführung in die Praxis der Statistik". .

BEARBEITEN:

Hier ist eine Übung, die meiner Meinung nach ziemlich intuitiv ist: Nehmen Sie ein Kartenspiel (aus der Schachtel) und lassen Sie das Kartenspiel aus einer Höhe von etwa einem Meter fallen. Bitten Sie Ihr Kind, die Karten aufzuheben und an Sie zurückzugeben. Anstatt das Deck fallen zu lassen, wirf es so hoch wie möglich und lasse die Karten auf den Boden fallen. Bitten Sie Ihr Kind, die Karten aufzuheben und an Sie zurückzugeben.

Der relative Spaß, den sie während der zwei Versuche haben, sollte ihnen ein intuitives Gefühl für Varianz geben :)

Stemgal
quelle
1
Also, was bedeutet das? Wenn jemand die statistische Varianz der Pfeile an der Tafel sehen würde, was würden sie daraus schließen? Was bedeutet es, intuitiv niedrige / hohe Varianz zu haben ...
PhD
1
Ich würde so etwas sagen: Nehmen wir an, wir haben 4 Darts geworfen. Die Anzahl der Hände, die erforderlich sind, um die Pfeile auf einmal vom Brett zu entfernen, nimmt mit zunehmender Varianz der Pfeilpositionen zu (Anmerkung: Sehr informelles Argument, da es eine Reihe von Gegenbeispielen gibt, z an der Wand 3 Fuß vom Steuerbord entfernt).
2
Ihr Diagramm scheint auch mit der klassischen Methode zur Unterscheidung von Präzision und Genauigkeit übereinzustimmen! Es traf mich einfach!
PhD
2
AAAAAAAAAAAH! Schöne Übung! Gute Möglichkeit, jemandem zu zeigen, was es heißt, niedrige / hohe Varianz zu haben! Die durchschnittliche Entfernung vom Durchschnittswert (Mittelwert) der Datenpunkte :)
PhD
2
(+1) Das Dartboard-Analogon, um den Unterschied zwischen Bias und Varianz zu demonstrieren, ist einfach genial
steffen
36

Ich habe einem Laien aus Spaß Statistiken beigebracht und festgestellt, dass sie viel lernen.

Angenommen, für Varianz oder Standardabweichung ist der folgende Witz sehr nützlich:

Scherz

Einmal müssen zwei Statistiker mit einer Höhe von 4 Fuß und 5 Fuß einen Fluss mit einer durchschnittlichen Tiefe von 3 Fuß überqueren. Währenddessen kommt ein dritter Statistiker und sagt: "Worauf warten Sie noch? Sie können den Fluss leicht überqueren."

Ich gehe davon aus, dass Laien den Begriff „Durchschnitt“ kennen. Sie können ihnen auch die gleiche Frage stellen, die sie in dieser Situation über den Fluss bringen würden.

Was fehlt ihnen, das heißt "Varianz", um zu entscheiden, "was in der Situation zu tun ist"?

Es dreht sich alles um Ihre Präsentationsfähigkeiten. Witze helfen jedoch dem Laien, der Statistiken verstehen will, sehr. Ich hoffe, es hilft!

Biostat
quelle
1
Vielleicht gut , ich bin nicht mit statistischen Witzen (ich bin bin ziemlich gut mit den anderen aber :). Aber ich glaube nicht zu verstehen, was unter "was in der Situation zu tun ist" zu verstehen ist? Was "genau" soll man tun, wenn man eine Vorstellung von der Varianz hat? Wie soll man das interpretieren?
PhD
6
@Nupul: Tatsächlich bedeutet "was in der Situation zu tun ist", dass sie entweder einen Fluss überqueren oder nicht? Wenn Sie die Varianz (oder SD) kennen, können Sie sie leicht bestimmen. Angenommen, die Varianz beträgt 0,25 (SD = 0,5), dann können sie den Fluss sicher überqueren, da der Intervallbereich (verwechseln Sie dies nicht mit dem Konfidenzintervall (CI)) 3 + 0,5 oder 3-0,5 beträgt und ihre Höhen 4 und 5 betragen ist 4 dann besser den fluss nicht zu überqueren. By the way, genießen Sie einfach Witze hier stats.stackexchange.com/questions/1337/statistics-jokes
Biostat
Perfekt! Ich hab es geschafft! :) Das macht sehr viel Sinn. In der Tat hilft mir die Kombination der Antworten von verschiedenen Menschen, das Verständnis besser zu gestalten ...
PhD
Oder wenn Haie im Durchschnitt keine Menschen fressen, ist das wenig angenehm, wenn sie sehr launisch sind (sehr abweichendes Verhalten). In der Fluss-Analogie geht es darum, ob Sie einen Schritt machen, der Sie über den Kopf hebt.
Dean Radcliffe
12

Ich würde mich eher auf die Standardabweichung als auf die Varianz konzentrieren. Die Varianz liegt auf der falschen Skala.

So wie der Durchschnitt ein typischer Wert ist, ist die SD eine typische (absolute) Differenz zum Durchschnitt. Es ist nicht unähnlich, die Verteilung im Durchschnitt zu falten und den Durchschnitt davon zu nehmen.

Karl
quelle
1
Einverstanden. Nehmen wir an, wir konzentrieren uns auf SD. Meine Frage ist immer noch, wie man jemandem die SD intuitiv verständlich machen kann, abgesehen von "hohe SD scheint nicht gut zu sein ".
PhD
@Nupul - Lies meinen zweiten Absatz: Ich würde die SD als den typischen Unterschied zum Durchschnitt erklären.
Karl
4
"Es ist nicht unähnlich, die Verteilung im Durchschnitt zu falten und den Durchschnitt davon zu nehmen." Dieser Kommentar scheint, wie der Rest Ihres Beitrags, die mittlere absolute Abweichung zu beschreiben, nicht die Standardabweichung.
Makro
3
@Macro - ja; Bei dem Versuch, die SD zu erklären, würde ich sie durch die MAD annähern. Ich denke, es ist am besten, nicht über das quadratische Mittel gegen den absoluten Mittelwert zu streiten.
Karl
7

Ich bin mit vielen Antworten nicht einverstanden, die die Menschen dazu auffordern, Varianz als Ausbreitung zu betrachten. Wie kluge Köpfe (Nassim Taleb) hervorgehoben haben, gehen die Leute davon aus, dass Varianz MAD ist, wenn sie Varianz als Spread betrachten.

Varianz beschreibt, wie weit die Mitglieder vom Mittelwert entfernt sind, UND beurteilt die Wichtigkeit jeder Beobachtung anhand derselben Entfernung. Das bedeutet, dass weit entfernte Beobachtungen wichtiger beurteilt werden. Daher Quadrate.

Ich denke, die Varianz einer kontinuierlichen einheitlichen Variablen ist am einfachsten abzubilden. Zu jeder Beobachtung kann ein Quadrat eingezeichnet werden. Durch Stapeln dieser Quadrate entsteht eine Pyramide. Schneide die Pyramide in zwei Hälften, so dass die Hälfte des Gewichts auf der einen und die Hälfte auf der anderen Seite liegt. Das Gesicht, wo Sie es schneiden, ist die Varianz.

arthur.00
quelle
2
Ich weiß nicht, warum diese Antwort nicht mehr positiv bewertet wurde. Der im zweiten Absatz angesprochene Punkt ist entscheidend, um die Varianz zu verstehen und sie von der MAD zu unterscheiden, die, wie richtig hervorgehoben, die Menschen intuitiv einschätzen, wenn sie über das "Maß der Ausbreitung" informiert werden. Und es ist für Laien selbstverständlich, zu verstehen, dass die Gewichtung des Abstands eines Punkts vom Mittelwert nicht linear zunimmt, auch wenn sie Quadrate nicht mathematisch verstehen.
Jeremy Radcliff
3
"MAD" = en.wikipedia.org/wiki/Median_absolute_deviation für diejenigen, die sich fragen. Ich denke nicht, dass solche Akronyme Kenntnisse über eine solche Frage vorausgesetzt werden sollten.
5

Vielleicht könnte das helfen. Ich entschuldige mich im Voraus, dass ich als kompletter Amateur das falsch verstehen kann.

Stellen Sie sich vor, Sie bitten 1000 Personen, richtig zu erraten, wie viele Bohnen sich in einem mit Gummibärchen gefüllten Glas befinden. Stellen Sie sich nun vor, dass Sie nicht unbedingt an der richtigen Antwort interessiert sind (was von Nutzen sein kann), aber Sie möchten ein besseres Verständnis dafür bekommen, wie die Leute die Antwort schätzen.

Varianz könnte einem Laien als die Streuung verschiedener Antworten (von der höchsten zur niedrigsten) erklärt werden. Sie könnten fortfahren, indem Sie hinzufügen, dass, wenn genügend Leute befragt würden, die richtige Antwort irgendwo in der Mitte der Verteilung der gegebenen "Gast-Kommentare" liegen sollte.

Ich wende mich jetzt an einige meiner geschätzten Kollegen, um eine Entscheidung zu treffen

Andrew V
quelle
5

Ich habe mich hingesetzt und versucht, die Varianz herauszufinden, und das, was es schließlich zum Einrasten brachte, war, es grafisch zu betrachten.

Angenommen, Sie zeichnen eine Zahlenlinie mit vier Punkten, -7, -1, 1 und 7. Zeichnen Sie nun eine imaginäre Y-Achse mit denselben vier Punkten entlang der Y-Dimension und verwenden Sie die XY-Paare, um das Quadrat für jedes Paar zu zeichnen von Punkten. Sie erhalten vier separate Quadrate mit jeweils 49, 1, 1 und 49 kleineren Quadraten. Jeder von ihnen trägt zu einer Gesamtsumme von Quadraten bei, die selbst als großes 10 × 10-Quadrat mit insgesamt 100 kleineren Quadraten dargestellt werden können.

Varianz ist die Größe des durchschnittlichen Quadrats, das zu diesem größeren Quadrat beiträgt. 49 + 1 + 49 + 1 = 100, 100/4 = 25. 25 wäre also die Varianz. Die Standardabweichung wäre die Länge einer der Seiten dieses durchschnittlichen Quadrats oder 5.

Offensichtlich deckt diese Analogie nicht die gesamte Nuance des Varianzbegriffs ab. Es gibt viele Dinge, die erklärt werden müssen, z. B. warum wir häufig einen Nenner von n-1 verwenden, um den Populationsparameter zu schätzen, anstatt einfach n zu verwenden. Aber als Grundkonzept, um den Rest eines detaillierten Verständnisses der Varianz daran zu binden, es einfach herauszuziehen, damit ich sehen konnte, dass es immens hilft. Es hilft zu verstehen, was wir meinen, wenn wir sagen, dass Varianz die durchschnittliche quadratische Abweichung vom Mittelwert ist. Es hilft auch zu verstehen, welche Beziehung SD zu diesem Durchschnitt hat.

Calen
quelle
1
Willkommen bei Cross-Validated! Ich mag den Ansatz, aber es könnte noch hilfreicher sein, zu betonen, dass die Punkte 'um' Null verteilt sind (dh sie haben einen Mittelwert von Null) und Sie die Ausbreitung relativ zu einem "Atom" messen, das sich dort befindet. (+1) und ich freue mich auf weitere Antworten von Ihnen!
Matt Krause
4

Viel üben, Laien über Standardabweichung und Varianz zu unterrichten.

TL; DR; Es ist so etwas wie ein Durchschnitt der Entfernungen vom Durchschnitt. (Das ist ein bisschen verwirrend und irreführend in solch einer knappen Version. Lesen Sie also den ganzen Artikel.)

Ich nehme an, der Laie kennt sich mit Durchschnitt aus. Ich halte einen Vortrag über die Wichtigkeit, SD zu kennen und Fehler abzuschätzen (siehe PS unten). Dann verspreche ich, dass keine hohen mathematischen oder statistischen Kenntnisse verwendet werden - nur trockenes Denken und reine Logik.

  1. Das Problem. Nehmen wir an, wir haben ein Thermometer (ich wähle ein Messgerät, je nachdem, was näher am Gehör liegt).

    Wir haben N Messungen mit der gleichen Temperatur und dem gleichen Thermometer durchgeführt und dabei so etwas wie 36,5, 35,9, 37,0, 36,6, ... festgestellt (siehe Bild). Wir wissen, dass die reale Temperatur die gleiche war, aber das Thermometer liegt uns bei jeder Messung ein bisschen an.

    Wie können wir abschätzen, wie viel uns dieser kleine Abschaum anbelangt?

    Wir können den Durchschnitt berechnen (siehe rote Linie auf dem Bild unten). Können wir das glauben? Hat es auch nach der Mittelwertbildung genug Präzision für unsere Bedürfnisse?

    Thermometerwerte und deren Durchschnitt

  2. Der einfachste Ansatz . Wir können den entferntesten Punkt nehmen, den Abstand zwischen ihm und dem Durchschnitt (rote Linie) berechnen und sagen, dass uns das Thermometer so liegt, weil es der maximale Fehler ist, den wir sehen. Man könnte vermuten, es ist nicht die beste Schätzung. Wenn wir uns das Bild ansehen, liegen die meisten Punkte um den Durchschnitt. Wie können wir uns nur für einen Punkt entscheiden? Eigentlich kann man Numerierungsgründe üben, warum eine solche Schätzung grob und normalerweise schlecht ist.

  3. Varianz . Dann ... nehmen wir alle Entfernungen und berechnen die durchschnittliche Entfernung !

    (Xich-X¯)X¯Xich

    Dann könnte man sich vorstellen, dass die Formel der Durchschnittsentfernung alles summiert und durch N dividiert:

    (Xich-X¯)N

    Aber es gibt ein Problem. Wir können leicht sehen, z. dass 36.4 und 36.8 den gleichen Abstand von 36.6 haben. aber wenn wir die Werte in die obige Formel setzen, erhalten wir -0,2 und +0,2 und ihre Summe ist gleich 0, was nicht das ist, was wir wollen.

    Wie wird man das Schild los? (An dieser Stelle sagen Laien normalerweise "Nimm den absoluten Wert" und bekommen den Vorschlag, dass "ein absoluter Wert ein wenig künstlich ist, was ist ein anderer Weg?"). Wir können die Werte quadrieren! Dann lautet die Formel:

    (Xich-X¯)2N

    Diese Formel wird in der Statistik als "Varianz" bezeichnet. Und es passt viel besser, die Streuung unserer Thermometerwerte (oder was auch immer) abzuschätzen, als nur die maximale Entfernung zu nehmen.

  4. °C2°F2

    (Xich-X¯)2N

    σ

Zu diesem Zeitpunkt versteht ein Laie ziemlich genau, wie wir hierher kommen und wie die Standardabweichung / Varianz funktioniert. Ab diesem Punkt gehe ich normalerweise zur Regel 68–95–99.7 und beschreibe auch Stichproben und Grundgesamtheit, Standardfehler und Standardabweichung usw.

PS Wichtigkeit des Wissens über SD-Talk-Beispiel:

Nehmen wir an, Sie haben ein Messgerät, das 1 000 000 $ gekostet hat . Und es gibt Ihnen die Antwort: 42. Glaubst du, man hat 1 000 000 $ für 42 bezahlt ? Phooey! Man bezahlte 1000 000 für die Genauigkeit dieser Antwort. Denn Wert - kostet nichts, ohne seinen Fehler zu kennen. Sie bezahlen für den Fehler, nicht den Wert. Hier ist ein gutes Beispiel aus dem Leben.

Im alltäglichen Leben verwenden wir meistens ein Lineal, um die Entfernung zu messen. Das Lineal gibt Ihnen eine Genauigkeit von etwa einem Millimeter (wenn Sie nicht in den USA sind). Was ist, wenn Sie über den Millimeter hinaus etwas mit einer Genauigkeit von 0,1 mm messen müssen? - Sie würden wahrscheinlich einen Bremssattel verwenden. Nun ist es leicht zu überprüfen, dass ein billiges Lineal (aber immer noch millimetergenau) Cent kostet, während ein guter Bremssattel Zehntel Dollar kostet. 2 Größen eines Preises für 1 Größe der Präzision. Und das ist sehr üblich, wie viel Sie für einen Fehler bezahlen.

MajesticRa
quelle
2

Ich denke, der Schlüsselbegriff für die Erklärung von Varianz und Standardabweichung ist "Maß für die Streuung" . In der einfachsten Sprache geben die Varianz und die Standardabweichung Auskunft darüber, wie gut die Daten verteilt sind. Um etwas genauer zu sein, obwohl sie immer noch den Laien ansprechen, sagen sie uns, wie gut die Daten über den Mittelwert verteilt sind. Im Übrigen ist zu beachten, dass der Mittelwert ein "Maß für die Position" ist . Um die Erklärung für den Laien abzuschließen, sollte hervorgehoben werden, dass die Standardabweichung in denselben Einheiten ausgedrückt wird wie die Daten, mit denen wir arbeiten, und dass wir aus diesem Grund die Quadratwurzel der Varianz ziehen. dh die beiden sind miteinander verbunden.

Ich denke, diese kurze Erklärung würde den Trick machen. Wahrscheinlich ähnelt es sowieso etwas einer einführenden Lehrbucherklärung.

Graeme Walsh
quelle
-2

Ich würde es die durchschnittliche positive Differenz zum Gesamtdurchschnitt nennen.

mskw
quelle
1
L2