Talebs Buch "The Black Swan" war ein Bestseller der New York Times, als es vor einigen Jahren herauskam. Das Buch ist jetzt in der zweiten Auflage. Nach einem Treffen mit Statistikern auf einer JSM (einer jährlichen statistischen Konferenz) hat Taleb seine Kritik an der Statistik etwas abgeschwächt. Der Kern des Buches ist jedoch, dass Statistiken nicht sehr nützlich sind, da sie sich auf die Normalverteilung und sehr seltene Ereignisse stützen: "Schwarze Schwäne" haben keine Normalverteilung.
Denken Sie, das ist berechtigte Kritik? Fehlen Taleb einige wichtige Aspekte der statistischen Modellierung? Können seltene Ereignisse zumindest in dem Sinne vorhergesagt werden, dass Eintrittswahrscheinlichkeiten geschätzt werden können?
extreme-value
rare-events
Michael Chernick
quelle
quelle
Antworten:
Ich habe den Schwarzen Schwan vor ein paar Jahren gelesen. Die Black-Swan-Idee ist gut und der Angriff auf den lächerlichen Trugschluss (Dinge als Würfelspiele mit erkennbaren Wahrscheinlichkeiten zu sehen) ist gut, aber die Statistik wird auf empörende Weise falsch dargestellt, wobei das Hauptproblem die falsche Behauptung ist, dass alle Statistiken auseinanderfallen, wenn Variablen sind nicht normal verteilt. Dieser Aspekt ärgerte mich genug, um Taleb den folgenden Brief zu schreiben:
Lieber Dr. Taleb
Ich habe kürzlich "The Black Swan" gelesen. Ich bin wie Sie ein Fan von Karl Popper und stimme vielem darin zu. Ich denke, Ihre Darstellung des lächerlichen Irrtums ist im Grunde genommen vernünftig und lenkt die Aufmerksamkeit auf ein echtes und allgemeines Problem. Ich denke jedoch, dass ein Großteil von Teil III Ihre allgemeine Argumentation bis hin zu einer möglichen Diskreditierung des Restes des Buches im Stich lässt. Dies ist eine Schande, da ich denke, dass die Argumente in Bezug auf schwarze Schwäne und "unbekannte Unbekannte" auf ihren Verdiensten beruhen, ohne sich auf einige der Fehler in Teil III zu stützen.
Das Hauptproblem, auf das ich hinweisen möchte - und auf das Sie Ihre Antwort einholen möchten, insbesondere wenn ich missverstandene Probleme habe - ist Ihre falsche Darstellung des Bereichs der angewandten Statistik. Meines Erachtens hängen die Kapitel 14, 15 und 16 weitgehend von einem Strohmann-Argument ab, das Statistiken und Ökonometrie falsch darstellt. Das von Ihnen beschriebene Feld der Ökonometrie wurde mir nicht beigebracht, als ich angewandte Statistik, Ökonometrie und Theorie des versicherungsmathematischen Risikos studierte (an der Australian National University, aber mit Texten, die ziemlich standardisiert erschienen). Die von Ihnen angesprochenen Probleme (z. B. die Einschränkungen der Gaußschen Verteilungen) werden auch im Grundstudium sehr gut verstanden und gelehrt.
Sie werden zum Beispiel einige Anstrengungen unternehmen, um zu zeigen, dass die Einkommensverteilung keiner Normalverteilung folgt, und dies als Argument gegen die statistische Praxis im Allgemeinen darstellen. Kein kompetenter Statistiker würde jemals behaupten, dass dies der Fall ist, und die Art und Weise, mit diesem Problem umzugehen, ist gut etabliert. Wenn Sie nur Techniken aus der einfachsten "Ökonometrie des ersten Jahres" verwenden, zum Beispiel, um die Variable mit ihrem Logarithmus zu transformieren, werden Ihre numerischen Beispiele viel weniger überzeugend aussehen. Eine solche Transformation würde in der Tat viel von dem, was Sie sagen, ungültig machen, da dann die Varianz der ursprünglichen Variablen mit zunehmendem Mittelwert zunimmt.
Ich bin mir sicher, dass es einige inkompetente Ökonomen gibt, die OLS-Regressionen usw. mit einer nicht transformierten Antwortvariablen durchführen, wie Sie sagen, aber das macht sie einfach inkompetent und verwendet Techniken, die als unangemessen erwiesen sind. Selbst in Studiengängen, in denen viel Zeit darauf verwendet wurde, geeignete Methoden zur Modellierung von Variablen wie Einkommen zu finden, die die tatsächlich beobachtete (nicht-gaußsche) Verteilung widerspiegeln, wären sie sicherlich gescheitert.
Die Familie der verallgemeinerten linearen Modelle besteht aus einer Reihe von Techniken, die teilweise entwickelt wurden, um die von Ihnen aufgeworfenen Probleme zu umgehen. Viele der exponentiellen Verteilungsfamilien (z. B. Gamma-, Exponential- und Poisson-Verteilungen) sind asymmetrisch und weisen eine Varianz auf, die mit zunehmendem Verteilungszentrum zunimmt, um das Problem zu umgehen, auf das Sie bei der Verwendung der Gaußschen Verteilung hingewiesen haben. Wenn dies immer noch zu einschränkend ist, ist es möglich, eine bereits vorhandene "Form" zu löschen und einfach eine Beziehung zwischen dem Mittelwert einer Verteilung und ihrer Varianz anzugeben (z. B. Ermöglichen, dass die Varianz proportional zum Quadrat des Mittelwerts zunimmt). unter Verwendung der "Quasi-Wahrscheinlichkeit" -Methode der Schätzung.
Natürlich könnte man argumentieren, dass diese Form der Modellierung immer noch zu simpel ist und eine intellektuelle Falle darstellt, die uns einlullt, dass die Zukunft wie die Vergangenheit sein wird. Möglicherweise haben Sie recht, und ich denke, die Stärke Ihres Buches besteht darin, Leute wie mich dazu zu bringen, dies in Betracht zu ziehen. Sie benötigen jedoch andere Argumente als die, die Sie in den Kapiteln 14-16 verwenden. Das große Gewicht, das Sie der Tatsache beimessen, dass die Varianz der Gaußschen Verteilung unabhängig von ihrem Mittelwert konstant ist (was beispielsweise Probleme mit der Skalierbarkeit verursacht), ist ungültig. Ihr Schwerpunkt liegt also auf der Tatsache, dass Verteilungen im wirklichen Leben eher asymmetrisch als glockenförmig sind.
Grundsätzlich haben Sie den grundlegendsten statistischen Ansatz (naive Modellierung von Rohvariablen mit Gauß-Verteilungen) stark vereinfacht und die Mängel eines solchen vereinfachten Ansatzes (richtig) aufgezeigt. Sie verwenden dies dann, um die Lücke zu schließen und das gesamte Feld zu diskreditieren. Dies ist entweder eine schwerwiegende Lücke in der Logik oder eine Propagandatechnik. Es ist bedauerlich, weil es von Ihrer allgemeinen Argumentation ablenkt, von der ich vieles (wie gesagt) für richtig und überzeugend befunden habe.
Es würde mich interessieren, was Sie als Antwort sagen. Ich bezweifle, dass ich der Erste bin, der dieses Problem angesprochen hat.
Dein
PE
quelle
Ich habe das Buch nicht gelesen, aber wie gesagt, die Kritik erscheint mir ziemlich unvernünftig. Wenn Extremereignisse wichtig sind, verfügt die Statistik über geeignete Tools in der Toolbox, z. B. die Extremwerttheorie, und ein guter Statistiker weiß, wie er sie verwendet (oder zumindest herausfindet, wie er sie verwendet und sich ausreichend mit dem Zweck von befasst) die analyse zu schauen). Die Kritik scheint zu lauten "Statistiken sind schlecht, weil es schlechte Statistiker gibt, die nur über Normalverteilungen Bescheid wissen".
quelle
Zu sagen, dass "der Kern des Buches darin besteht, dass Statistiken nicht sehr nützlich sind", ist meiner Meinung nach ungenau. Nachdem er das Buch gelesen hat, scheint er zu sagen, dass Dinge wie quantitative Finanzen oder jede Art von Wertpapierhandel, die von einer normalen Verteilung ausgehen, grundlegend fehlerhaft sind (tatsächlich ruft er in dem Buch Leute an, die behaupten, diese Modelle zu verwenden, um Vorhersagen zu treffen , "Scharlatane"). Laut Taleb leistet die Normalverteilung zwar einen hervorragenden Beitrag zur Modellierung der Werte von materiellen / physischen Dingen (z. B. Größe, Gewicht, Lebensdauer usw.), Systeme wie die Märkte werden jedoch häufig von menschlichen Emotionen angetrieben und sind daher anfällig für diese große Schwankungen, die Normalverteilungen nicht genau vorhersagen können.
Ich verstehe Statistiken nicht gut und bis ich die Antworten hier gelesen habe, hatte ich noch nie von Dingen wie der Extremwerttheorie gehört. Unabhängig davon scheinen The Black Swan und Fooled By Randomness ähnliche Prämissen zu haben, was "Normalverteilung nicht immer OK" ist. Ich kann mich nicht erinnern, dass er das gesamte Gebiet der Statistik diffamiert hat.
quelle
Ich habe "The Black Swan" gelesen, es hat mir Spaß gemacht und ich bin Statistiker. Ich fand seine "Kritik der Statistik" überhaupt nicht unerträglich. Punkt für Punkt:
Wer diese Antwort nicht mag oder das Buch nicht mag, kann einen Blick auf die technischen Argumente von Taleb in der neuen Datei https://fernandonogueiracosta.files.wordpress.com/2014/07/taleb-nassim-silent-risk werfen . pdf „Stille Risk“, das ist technisch.
quelle
Ich habe den Schwarzen Schwan nicht gelesen, aber wenn seine Kritik an Statistiken wirklich so einfach ist, wie Sie sagen, dann ist es lächerlich. Offensichtlich basieren einige Statistiken auf der Normalverteilung, aber vieles nicht.
Können seltene Ereignisse modelliert werden? Natürlich können sie. Die eigentliche Frage ist, wie gut sie modelliert werden können. Und diese Frage wird in verschiedenen Bereichen unterschiedliche Antworten haben, je nachdem, wie viel wir über die seltenen Ereignisse und ihre Vorgeschichte wissen.
Im heutigen NY Times Magazine gibt es einen interessanten Artikel von Nate Silver darüber, wie sich die Wettervorhersage in den letzten zehn Jahren verbessert hat. Dies beinhaltet eine bessere Modellierung seltener Ereignisse wie Hurrikane.
Ist das Buch lesenswert?
quelle
Ich habe das Buch auch nicht gelesen, aber es gibt keine Möglichkeit, seinen Standpunkt so zu vereinfachen, als zu sagen, dass es Verteilungen mit dickeren Schwänzen gibt als die normale Verteilung. Dies wäre ein Kommentar zu den anderen Antworten, aber ich habe auf dieser Website nicht genügend Auszeichnungen gesammelt.
Aus Wikipedia:
"Er gibt an, dass die Statistik als Feld grundsätzlich unvollständig ist, da sie das Risiko seltener Ereignisse nicht vorhersagen kann ..."
Diese Frage ähnelt auch der Frage: Wie sieht die Community den vierten Quadranten?
quelle
Ich kann Dennis Lindleys Rezension dieses Buches nur empfehlen. Es enthält eine Reihe verheerender Argumente gegen die arme und arrogante Darstellung von Ideen im Buch:
http://onlinelibrary.wiley.com/doi/10.1111/j.1740-9713.2008.00281.x/abstract
Der Schwarze Schwan ist ein weiteres Beispiel dafür, dass ein "Bestseller" keine Garantie für qualitativ hochwertige Inhalte bietet.
quelle
Ich glaube nicht, dass Taleb tatsächlich sagen würde, dass statistische Techniken, die sich auf die Gaußsche Verteilung stützen, nicht nützlich sind. Sein Punkt in dem Buch war, dass sie für viele (aber nicht alle) physikalische oder biologische Prozesse und Modelle sehr nützlich sind. Er macht einige gute und einige schlechte Punkte (The Black Swan und Linked waren der Beginn der "Alles ist ein Machtgesetz!" - Plage, die uns heute noch verfolgt), aber es ist wichtig, sich daran zu erinnern, dass das Buch eine Sammlung literarischer und philosophischer Themen ist Essays für Laien.
Das heißt, ich denke, Taleb mag es, Menschen zu ärgern. Sie können dies in seinem Kampf mit Myron Scholes sehen. In diesem Fall kann es als statistische Ausbildung auf der Grundschulebene und manchmal auf der Hochschulebene nützlich gewesen sein, die Annahme von Gaußschen Verteilungen zu übertreffen. Ich kann mir vorstellen, dass er während seiner Jahre im Finanzwesen auf eine große Anzahl von Quants gestoßen ist, die über große Kenntnisse von Black-Scholes und anderen Techniken verfügten, aber die zugrunde liegenden Annahmen wie die Verteilung nicht berücksichtigten. Ich vermute, Taleb hat die Bildungseinrichtung wegen mangelnder Bildung angestachelt.
quelle
Diejenigen von euch, die das Buch nicht gelesen haben, sind weit von der Basis entfernt. Er unterscheidet GROSS zwischen skalierbar und unskalierbar. Für unskalierbare Angelegenheiten reichen herkömmliche Statistiken aus. Er kritisiert das überhaupt nicht. Schwarze Schwäne haben ihren Ursprung in der Skalierbarkeit und sind aufgrund der empirischen Daten der Vergangenheit schwer vorherzusagen. Das Buch handelt davon, wie diese Ereignisse enorme Auswirkungen haben können und im Allgemeinen erst im Nachhinein erklärt werden. Die Erkenntnistheorie ist hervorragend.
quelle
Ohne das Buch zu lesen, habe ich das Gefühl, dass Gaußsche Glocken versagen, weil sie nie eine klare Definition der "Wahrscheinlichkeitsdichte" gegeben haben. Außerdem geben sie niemals einen vollständigen Satz von Punkten von Lorenz-Kurven an, die gleichzeitig die Summe der verteilten Variablen und die Summe der Populationen enthalten, die die erstere wahrnehmen. Wenn "Dichte" verwendet wird, muss erklärt werden, in Bezug auf welche Variable; Wenn Sie beispielsweise von Kilogramm pro Liter sprechen, bezieht sich dies auf eine auf das Volumen bezogene Gewichtsdichte. Diesen Schritt gibt die Gaußsche Theorie in Lehrbüchern nicht vor. Kein Wunder, dass Jugendliche Statistiken nicht richtig verstehen.
quelle