Es scheint etwas in unserem menschlichen Verständnis zu geben, das es schwierig macht, die Idee der Varianz intuitiv zu erfassen. Im engeren Sinne ist die Antwort unmittelbar: Das Quadrieren wirft uns von unserem reflexiven Verständnis ab. Aber ist es nur die Varianz , die Probleme aufwirft, oder ist es die ganze Idee der Verbreitung in den Daten? Wir suchen Zuflucht in der Reichweiteoder nur das Minimum und Maximum angeben, aber vermeiden wir nur die wirklichen Schwierigkeiten? Im Mittelwert (Modus oder Median) finden wir das Zentrum, die Zusammenfassung ... eine Vereinfachung; Die Varianz verbreitet Dinge und macht sie unangenehm. Der primitive Mensch würde sicherlich den Mittelwert bei der Jagd auf Tiere nutzen, indem er zum Gebet triangulierte, aber ich nehme an, dass wir viel später das Bedürfnis verspürten, die Ausbreitung der Dinge zu quantifizieren. Tatsächlich wurde der Begriff Varianz erstmals 1918 von Ronald Fisher in der Arbeit "Die Korrelation zwischen Verwandten unter der Annahme der Mendelschen Vererbung" eingeführt.
Die meisten Leute, die den Nachrichten folgen, hätten die Geschichte von Larry Summers unglücklicher Rede über mathematische Fähigkeiten nach Geschlecht gehört , die möglicherweise mit seiner Abreise aus Harvard zusammenhängen. Kurz gesagt, er schlug eine größere Varianz in der Verteilung der Mathematikkompetenz unter Männern im Vergleich zu Frauen vor, obwohl beide Geschlechter den gleichen Mittelwert hatten. Unabhängig von der Angemessenheit oder den politischen Implikationen scheint dies in der wissenschaftlichen Literatur begründet zu sein .
Noch wichtiger ist, dass das Verständnis von Themen wie dem Klimawandel - bitte verzeihen Sie mir, dass ich Themen anspreche, die zu völlig unaufgeforderten Diskussionen führen könnten - durch die allgemeine Bevölkerung durch eine bessere Vertrautheit mit der Idee der Varianz unterstützt werden könnte.
Das Problem verschärft sich, wenn wir versuchen, die Kovarianz zu erfassen , wie in diesem Beitrag gezeigt , mit einer großartigen und farbenfrohen Antwort von @whuber hier .
Es mag verlockend sein, diese Frage als zu allgemein abzulehnen , aber es ist klar, dass wir sie indirekt diskutieren, wie in diesem Beitrag , in dem die Mathematik trivial ist, das Konzept jedoch weiterhin schwer fassbar ist und eine bequemere Akzeptanz der Reichweite als im Gegensatz zu der nuancierteren Ideenvarianz .
In einem Brief von Fisher an EBFord , der sich auf die Kontroverse über seinen Verdacht auf die Mendelschen Experimente bezieht, lesen wir: "Jetzt, wo Daten gefälscht wurden, weiß ich sehr gut, wie allgemein die Häufigkeit weitreichender Abweichungen unterschätzt wird , so dass die Die Tendenz ist immer, sie zu gut mit den Erwartungen übereinstimmen zu lassen ... die Abweichungen [in Mendels Daten] sind erschreckend gering. " Der große RA Fisher ist so scharf darauf, kleine Abweichungen in kleinen Stichproben zu vermuten, dass er schreibt : "Es bleibt unter anderem die Möglichkeit, dass Mendel von einem Assistenten getäuscht wurde, der nur zu gut wusste, was erwartet wurde."
Und es ist durchaus möglich, dass diese Tendenz, die Verbreitung zu unterschätzen oder zu missverstehen, bis heute anhält. Wenn ja, gibt es eine Erklärung dafür, warum wir mit Zentralitätskonzepten besser vertraut sind als mit Dispersion? Können wir irgendetwas tun, um die Idee zu verinnerlichen?
Einige Konzepte "sehen" wir blitzschnell, und dann tun wir es nicht, aber wir akzeptieren sie und gehen weiter. Zum Beispiel ist oder E = m c 2 , aber wir müssen nicht einmal über diese Identitäten Bescheid wissen, um Entscheidungen in unserem täglichen Leben zu treffen. Gleiches gilt nicht für die Varianz. Sollte es nicht intuitiver sein?
Nassim Taleb hat ein Vermögen gemacht, indem er seine (wirklich Benoit Mandelbrots ) Wahrnehmung eines fehlerhaften Verständnisses von Varianz auf die Ausnutzung von Krisenzeiten angewendet hat, und versucht, das Konzept mit Sätzen wie "Die Varianz der Varianz ist erkenntnistheoretisch für die Massen verständlich zu machen" , ein Maß für mangelndes Wissen über den Mangel an Wissen über den Mittelwert "- ja, dieser Schluck hat mehr Kontext ... Und zu seiner Ehre hat er es auch mit der Idee von Thanksgiving Turkey einfacher gemacht . Man kann argumentieren, dass der Schlüssel zum Investieren darin besteht, Varianz (und Kovarianz) zu verstehen.
Warum ist es so rutschig und wie kann man Abhilfe schaffen? Ohne Formeln ... nur die Intuition jahrelangen Umgangs mit Unsicherheit ... Ich kenne die Antwort nicht, aber sie ist nicht mathematisch (das heißt unbedingt): Ich frage mich zum Beispiel, ob die Idee der Kurtosis die Varianz beeinträchtigt. In der folgenden Darstellung haben wir zwei Histogramme, die sich mit praktisch derselben Varianz überlappen. Meine Knie-Ruck-Reaktion ist jedoch, dass der mit den längsten Schwänzen und dem höchsten Gipfel (höhere Kurtosis) stärker "ausgebreitet" ist:
quelle
Antworten:
Ich teile Ihr Gefühl, dass Varianz etwas weniger intuitiv ist. Noch wichtiger ist, dass die Varianz als Maß für bestimmte Verteilungen optimiert ist und für asymmetrische Verteilungen weniger wert ist. Der mittlere absolute Unterschied zum Mittelwert ist aus meiner Sicht nicht viel intuitiver, da man den Mittelwert als Maß für die zentrale Tendenz wählen muss. Ich bevorzuge Ginis mittlere Differenz - die mittlere absolute Differenz gegenüber allen Beobachtungspaaren. Es ist intuitiv, robust und effizient. Wenn die Daten aus einer Gaußschen Verteilung stammen, beträgt die mittlere Differenz von Gini mit einem geeigneten Skalierungsfaktor 0,98 so effizient wie die Standardabweichung der Stichprobe. Es gibt eine effiziente Berechnungsformel für Ginis mittlere Differenz, sobald die Daten sortiert sind. R-Code ist unten.
quelle
x
bereits sortiert war.Hier sind einige meiner Gedanken. Es geht nicht um jeden Blickwinkel, aus dem Sie Ihre Frage betrachten können. Tatsächlich gibt es einen Menge , die nicht angesprochen wird (die Frage fühlt sich etwas weit gefasst an).
Warum ist es für Laien schwierig, die mathematische Berechnung der Varianz zu verstehen?
Varianz ist im Wesentlichen, wie weit verbreitet die Dinge sind. Dies ist leicht zu verstehen, aber die Art und Weise, wie es berechnet wird, mag einem Laien kontraintuitiv erscheinen.
Das Problem ist, dass die Unterschiede zum Mittelwert quadriert (dann gemittelt) und dann quadratisch verwurzelt werden, um die Standardabweichung zu erhalten. Wir verstehen, warum diese Methode notwendig ist - das Quadrieren besteht darin, die Werte positiv zu machen, und dann werden sie quadratisch verwurzelt, um die ursprünglichen Einheiten zu erhalten. Ein Laie ist jedoch wahrscheinlich verwirrt darüber, warum die Zahlen quadratisch und quadratisch sind. Das sieht so aus, als würde es sich selbst aufheben (es tut es nicht), also scheint es sinnlos / seltsam.
Was für sie intuitiver ist, ist das Ermitteln der Streuung durch einfaches Mitteln der absoluten Unterschiede zwischen dem Mittelwert und jedem Punkt (als mittlere absolute Abweichung bezeichnet). Diese Methode erfordert kein Quadrieren und Quadratwurzeln und ist daher weitaus intuitiver.
Nur weil die mittlere absolute Abweichung einfacher ist, heißt das nicht, dass sie besser ist. Die Debatte darüber, ob Quadrate oder Absolutwerte verwendet werden sollen, dauert seit einem Jahrhundert an, an dem viele prominente Statistiker beteiligt sind. Eine zufällige Person wie ich kann also nicht einfach hier auftauchen und sagen, einer sei besser. (Die Mittelung von Quadraten zur Ermittlung der Varianz ist natürlich beliebter.)
Kurz gesagt: Das Quadrieren, um Varianz zu finden, erscheint Laien, die die Mittelung der absoluten Unterschiede als einfacher empfinden, weniger intuitiv. Ich glaube jedoch nicht, dass die Leute ein Problem damit haben, die Idee der Verbreitung selbst zu verstehen
quelle
Hier geht es meiner Meinung nach zu Ihrer Frage.
Ich werde zunächst eine der oben genannten Antworten hinterfragen, um dann zu versuchen, meinen Standpunkt darzulegen.
Frage zur vorherigen Hypothese:
Sind es wirklich die Quadrate, die Dispersionsmaße wie die quadratische mittlere Abweichung schwer zu verstehen machen? Ich bin damit einverstanden, dass das Quadrat es schwieriger macht, mathematische Komplexität zu bringen, aber wenn die Antwort nur die Quadrate wären, wäre die mittlere absolute Abweichung ebenso einfach zu verstehen und ein Maß für die Zentralität.
Meinung:
Ich denke, was es für uns schwierig macht, Dispersionsmaße zu verstehen, ist, dass die Dispersion selbst eine zweidimensionale Information ist. Der Versuch, eine zweidimensionale Information in einer Metrik zusammenzufassen, impliziert einen teilweisen Informationsverlust, der in der Folge Verwirrung stiftet.
Beispiel:
Ein Beispiel, das helfen kann, das obige Konzept zu erklären, ist das folgende. Lassen Sie uns 2 verschiedene Datensätze erhalten:
Nehmen wir auch an, dass die Streuung in Bezug auf die Standardabweichung 1,0 beträgt.
Mein Verstand tendiert dazu, die Streuung von Satz 1 viel klarer zu interpretieren als die von Satz 2. In diesem speziellen Fall wird der Grund für mein besseres Verständnis erklärt, wenn ich die zweidimensionale Form der Verteilung im Voraus kenne, kann ich das Verteilungsmaß in verstehen Begriffe einer Wahrscheinlichkeit um den zentralisierten Gaußschen Mittelwert. Mit anderen Worten, die Gaußsche Verteilung gab mir den zweidimensionalen Hinweis, den ich brauchte, um besser aus dem Maß der Dispersion zu übersetzen.
Fazit:
Insgesamt gibt es keine konkrete Möglichkeit, alles, was in einer zweidimensionalen Information enthalten ist, in einem Abweichungsmaß zu erfassen. Um die Streuung zu verstehen, ohne direkt auf die Verteilung selbst zu schauen, kombiniere ich normalerweise viele Maßnahmen, die eine bestimmte Verteilung erklären. Sie werden den Kontext für meinen Verstand einrichten, um das Dispersionsmaß selbst besser erfassen zu können. Wenn ich Grafiken verwenden könnte, wären Box-Plots sicherlich sehr nützlich, um sie zu visualisieren.
Tolle Diskussion, die mich viel über das Thema nachdenken ließ. Ich würde mich freuen, Ihre Meinung zu hören.
quelle
Ich denke, ein einfacher Grund dafür, dass es Menschen mit Variabilität schwerer fällt (ob Varianz, Standardabweichung, MAD oder was auch immer), ist, dass Sie Variabilität erst wirklich verstehen können, nachdem Sie die Idee des Zentrums verstanden haben. Dies liegt daran, dass die Variabilitätsmaße alle auf der Grundlage des Abstands vom Zentrum gemessen werden.
Konzepte wie Mittelwert und Median sind parallele Konzepte. Sie können entweder eines zuerst lernen und einige Menschen haben möglicherweise ein besseres Verständnis für das eine und andere verstehen das andere besser. Die Ausbreitung wird jedoch vom Zentrum aus gemessen (für eine Definition des Zentrums) und kann daher nicht wirklich zuerst verstanden werden.
quelle