Was ist der sauberste und einfachste Weg, um jemandem das Konzept der Varianz zu erklären? Was bedeutet es intuitiv? Wenn man dies seinem Kind erklären soll, wie würde man dann vorgehen?
Es ist ein Konzept, das ich nur schwer artikulieren kann - insbesondere, wenn ich Varianz mit Risiko in Beziehung setze. Ich verstehe es mathematisch und kann es auch so erklären. Aber wenn man Phänomene der realen Welt erklärt, wie kann man Varianz und ihre Anwendbarkeit sozusagen in der "realen Welt" verstehen.
Angenommen, wir simulieren eine Investition in eine Aktie mithilfe von Zufallszahlen (Würfeln oder Verwenden eines Excel-Blatts spielt keine Rolle). Wir erhalten eine gewisse Rendite, indem wir jede Instanz der Zufallsvariablen mit einer gewissen Änderung der Rendite verknüpfen. Z.B.:
Eine 1 zu würfeln bedeutet eine Änderung der Investition um 0,8 USD pro 1 USD , eine Änderung um 5 USD pro 1 USD und so weiter.
Wenn diese Simulation nun etwa 50 Mal (oder 20 oder 100 Mal) ausgeführt wird, erhalten wir einige Werte und den Endwert der Investition. Was sagt uns die Varianz eigentlich, wenn wir sie aus dem obigen Datensatz berechnen würden? Was "sieht" man - Wenn sich herausstellt, dass die Varianz 1,7654 oder 0,88765 oder 5,2342 beträgt, was bedeutet das überhaupt? Was habe / kann ich bei dieser Investition beachten? Welche Schlüsse kann ich ziehen - in Laienbegriffen.
Bitte ergänzen Sie die Frage auch um die Standardabweichung! Obwohl ich der Meinung bin, dass es "leichter" zu verstehen ist, wäre etwas, das dazu beiträgt, es auch "intuitiv" verständlich zu machen, sehr dankbar!
Antworten:
Ich würde wahrscheinlich eine ähnliche Analogie verwenden wie die, die ich gelernt habe, um "Laien" beim Einführen des Konzepts von Voreingenommenheit und Varianz zu bezeichnen: die Dartscheibe-Analogie. Siehe unten:
Das obige Bild stammt aus der Enzyklopädie des maschinellen Lernens , und die Referenz innerhalb des Bildes ist Moore und McCabes "Einführung in die Praxis der Statistik". .
BEARBEITEN:
Hier ist eine Übung, die meiner Meinung nach ziemlich intuitiv ist: Nehmen Sie ein Kartenspiel (aus der Schachtel) und lassen Sie das Kartenspiel aus einer Höhe von etwa einem Meter fallen. Bitten Sie Ihr Kind, die Karten aufzuheben und an Sie zurückzugeben. Anstatt das Deck fallen zu lassen, wirf es so hoch wie möglich und lasse die Karten auf den Boden fallen. Bitten Sie Ihr Kind, die Karten aufzuheben und an Sie zurückzugeben.
Der relative Spaß, den sie während der zwei Versuche haben, sollte ihnen ein intuitives Gefühl für Varianz geben :)
quelle
Ich habe einem Laien aus Spaß Statistiken beigebracht und festgestellt, dass sie viel lernen.
Angenommen, für Varianz oder Standardabweichung ist der folgende Witz sehr nützlich:
Scherz
Einmal müssen zwei Statistiker mit einer Höhe von 4 Fuß und 5 Fuß einen Fluss mit einer durchschnittlichen Tiefe von 3 Fuß überqueren. Währenddessen kommt ein dritter Statistiker und sagt: "Worauf warten Sie noch? Sie können den Fluss leicht überqueren."
Ich gehe davon aus, dass Laien den Begriff „Durchschnitt“ kennen. Sie können ihnen auch die gleiche Frage stellen, die sie in dieser Situation über den Fluss bringen würden.
Was fehlt ihnen, das heißt "Varianz", um zu entscheiden, "was in der Situation zu tun ist"?
Es dreht sich alles um Ihre Präsentationsfähigkeiten. Witze helfen jedoch dem Laien, der Statistiken verstehen will, sehr. Ich hoffe, es hilft!
quelle
Ich würde mich eher auf die Standardabweichung als auf die Varianz konzentrieren. Die Varianz liegt auf der falschen Skala.
So wie der Durchschnitt ein typischer Wert ist, ist die SD eine typische (absolute) Differenz zum Durchschnitt. Es ist nicht unähnlich, die Verteilung im Durchschnitt zu falten und den Durchschnitt davon zu nehmen.
quelle
Ich bin mit vielen Antworten nicht einverstanden, die die Menschen dazu auffordern, Varianz als Ausbreitung zu betrachten. Wie kluge Köpfe (Nassim Taleb) hervorgehoben haben, gehen die Leute davon aus, dass Varianz MAD ist, wenn sie Varianz als Spread betrachten.
Varianz beschreibt, wie weit die Mitglieder vom Mittelwert entfernt sind, UND beurteilt die Wichtigkeit jeder Beobachtung anhand derselben Entfernung. Das bedeutet, dass weit entfernte Beobachtungen wichtiger beurteilt werden. Daher Quadrate.
Ich denke, die Varianz einer kontinuierlichen einheitlichen Variablen ist am einfachsten abzubilden. Zu jeder Beobachtung kann ein Quadrat eingezeichnet werden. Durch Stapeln dieser Quadrate entsteht eine Pyramide. Schneide die Pyramide in zwei Hälften, so dass die Hälfte des Gewichts auf der einen und die Hälfte auf der anderen Seite liegt. Das Gesicht, wo Sie es schneiden, ist die Varianz.
quelle
Vielleicht könnte das helfen. Ich entschuldige mich im Voraus, dass ich als kompletter Amateur das falsch verstehen kann.
Stellen Sie sich vor, Sie bitten 1000 Personen, richtig zu erraten, wie viele Bohnen sich in einem mit Gummibärchen gefüllten Glas befinden. Stellen Sie sich nun vor, dass Sie nicht unbedingt an der richtigen Antwort interessiert sind (was von Nutzen sein kann), aber Sie möchten ein besseres Verständnis dafür bekommen, wie die Leute die Antwort schätzen.
Varianz könnte einem Laien als die Streuung verschiedener Antworten (von der höchsten zur niedrigsten) erklärt werden. Sie könnten fortfahren, indem Sie hinzufügen, dass, wenn genügend Leute befragt würden, die richtige Antwort irgendwo in der Mitte der Verteilung der gegebenen "Gast-Kommentare" liegen sollte.
Ich wende mich jetzt an einige meiner geschätzten Kollegen, um eine Entscheidung zu treffen
quelle
Ich habe mich hingesetzt und versucht, die Varianz herauszufinden, und das, was es schließlich zum Einrasten brachte, war, es grafisch zu betrachten.
Angenommen, Sie zeichnen eine Zahlenlinie mit vier Punkten, -7, -1, 1 und 7. Zeichnen Sie nun eine imaginäre Y-Achse mit denselben vier Punkten entlang der Y-Dimension und verwenden Sie die XY-Paare, um das Quadrat für jedes Paar zu zeichnen von Punkten. Sie erhalten vier separate Quadrate mit jeweils 49, 1, 1 und 49 kleineren Quadraten. Jeder von ihnen trägt zu einer Gesamtsumme von Quadraten bei, die selbst als großes 10 × 10-Quadrat mit insgesamt 100 kleineren Quadraten dargestellt werden können.
Varianz ist die Größe des durchschnittlichen Quadrats, das zu diesem größeren Quadrat beiträgt. 49 + 1 + 49 + 1 = 100, 100/4 = 25. 25 wäre also die Varianz. Die Standardabweichung wäre die Länge einer der Seiten dieses durchschnittlichen Quadrats oder 5.
Offensichtlich deckt diese Analogie nicht die gesamte Nuance des Varianzbegriffs ab. Es gibt viele Dinge, die erklärt werden müssen, z. B. warum wir häufig einen Nenner von n-1 verwenden, um den Populationsparameter zu schätzen, anstatt einfach n zu verwenden. Aber als Grundkonzept, um den Rest eines detaillierten Verständnisses der Varianz daran zu binden, es einfach herauszuziehen, damit ich sehen konnte, dass es immens hilft. Es hilft zu verstehen, was wir meinen, wenn wir sagen, dass Varianz die durchschnittliche quadratische Abweichung vom Mittelwert ist. Es hilft auch zu verstehen, welche Beziehung SD zu diesem Durchschnitt hat.
quelle
Viel üben, Laien über Standardabweichung und Varianz zu unterrichten.
TL; DR; Es ist so etwas wie ein Durchschnitt der Entfernungen vom Durchschnitt. (Das ist ein bisschen verwirrend und irreführend in solch einer knappen Version. Lesen Sie also den ganzen Artikel.)
Ich nehme an, der Laie kennt sich mit Durchschnitt aus. Ich halte einen Vortrag über die Wichtigkeit, SD zu kennen und Fehler abzuschätzen (siehe PS unten). Dann verspreche ich, dass keine hohen mathematischen oder statistischen Kenntnisse verwendet werden - nur trockenes Denken und reine Logik.
Das Problem. Nehmen wir an, wir haben ein Thermometer (ich wähle ein Messgerät, je nachdem, was näher am Gehör liegt).
Wir haben N Messungen mit der gleichen Temperatur und dem gleichen Thermometer durchgeführt und dabei so etwas wie 36,5, 35,9, 37,0, 36,6, ... festgestellt (siehe Bild). Wir wissen, dass die reale Temperatur die gleiche war, aber das Thermometer liegt uns bei jeder Messung ein bisschen an.
Wie können wir abschätzen, wie viel uns dieser kleine Abschaum anbelangt?
Wir können den Durchschnitt berechnen (siehe rote Linie auf dem Bild unten). Können wir das glauben? Hat es auch nach der Mittelwertbildung genug Präzision für unsere Bedürfnisse?
Der einfachste Ansatz . Wir können den entferntesten Punkt nehmen, den Abstand zwischen ihm und dem Durchschnitt (rote Linie) berechnen und sagen, dass uns das Thermometer so liegt, weil es der maximale Fehler ist, den wir sehen. Man könnte vermuten, es ist nicht die beste Schätzung. Wenn wir uns das Bild ansehen, liegen die meisten Punkte um den Durchschnitt. Wie können wir uns nur für einen Punkt entscheiden? Eigentlich kann man Numerierungsgründe üben, warum eine solche Schätzung grob und normalerweise schlecht ist.
Varianz . Dann ... nehmen wir alle Entfernungen und berechnen die durchschnittliche Entfernung !
Dann könnte man sich vorstellen, dass die Formel der Durchschnittsentfernung alles summiert und durch N dividiert:
Aber es gibt ein Problem. Wir können leicht sehen, z. dass 36.4 und 36.8 den gleichen Abstand von 36.6 haben. aber wenn wir die Werte in die obige Formel setzen, erhalten wir -0,2 und +0,2 und ihre Summe ist gleich 0, was nicht das ist, was wir wollen.
Wie wird man das Schild los? (An dieser Stelle sagen Laien normalerweise "Nimm den absoluten Wert" und bekommen den Vorschlag, dass "ein absoluter Wert ein wenig künstlich ist, was ist ein anderer Weg?"). Wir können die Werte quadrieren! Dann lautet die Formel:
Diese Formel wird in der Statistik als "Varianz" bezeichnet. Und es passt viel besser, die Streuung unserer Thermometerwerte (oder was auch immer) abzuschätzen, als nur die maximale Entfernung zu nehmen.
Zu diesem Zeitpunkt versteht ein Laie ziemlich genau, wie wir hierher kommen und wie die Standardabweichung / Varianz funktioniert. Ab diesem Punkt gehe ich normalerweise zur Regel 68–95–99.7 und beschreibe auch Stichproben und Grundgesamtheit, Standardfehler und Standardabweichung usw.
PS Wichtigkeit des Wissens über SD-Talk-Beispiel:
Nehmen wir an, Sie haben ein Messgerät, das 1 000 000 $ gekostet hat . Und es gibt Ihnen die Antwort: 42. Glaubst du, man hat 1 000 000 $ für 42 bezahlt ? Phooey! Man bezahlte 1000 000 für die Genauigkeit dieser Antwort. Denn Wert - kostet nichts, ohne seinen Fehler zu kennen. Sie bezahlen für den Fehler, nicht den Wert. Hier ist ein gutes Beispiel aus dem Leben.
Im alltäglichen Leben verwenden wir meistens ein Lineal, um die Entfernung zu messen. Das Lineal gibt Ihnen eine Genauigkeit von etwa einem Millimeter (wenn Sie nicht in den USA sind). Was ist, wenn Sie über den Millimeter hinaus etwas mit einer Genauigkeit von 0,1 mm messen müssen? - Sie würden wahrscheinlich einen Bremssattel verwenden. Nun ist es leicht zu überprüfen, dass ein billiges Lineal (aber immer noch millimetergenau) Cent kostet, während ein guter Bremssattel Zehntel Dollar kostet. 2 Größen eines Preises für 1 Größe der Präzision. Und das ist sehr üblich, wie viel Sie für einen Fehler bezahlen.
quelle
Ich denke, der Schlüsselbegriff für die Erklärung von Varianz und Standardabweichung ist "Maß für die Streuung" . In der einfachsten Sprache geben die Varianz und die Standardabweichung Auskunft darüber, wie gut die Daten verteilt sind. Um etwas genauer zu sein, obwohl sie immer noch den Laien ansprechen, sagen sie uns, wie gut die Daten über den Mittelwert verteilt sind. Im Übrigen ist zu beachten, dass der Mittelwert ein "Maß für die Position" ist . Um die Erklärung für den Laien abzuschließen, sollte hervorgehoben werden, dass die Standardabweichung in denselben Einheiten ausgedrückt wird wie die Daten, mit denen wir arbeiten, und dass wir aus diesem Grund die Quadratwurzel der Varianz ziehen. dh die beiden sind miteinander verbunden.
Ich denke, diese kurze Erklärung würde den Trick machen. Wahrscheinlich ähnelt es sowieso etwas einer einführenden Lehrbucherklärung.
quelle
Ich betrachte die Streuung als Trägheitsmoment mit der Achse, die im Mittel der Verteilung und jeder Masse 1 ist. Diese Intuition würde den abstrakten Begriff konkretisieren.
Der erste Moment ist der Mittelwert der Verteilung und der zweite Moment ist die Varianz.
Hinweis: Ein erster Kurs der Wahrscheinlichkeit 8. Auflage
quelle
Ich würde es die durchschnittliche positive Differenz zum Gesamtdurchschnitt nennen.
quelle