Ist die Cauchy-Verteilung irgendwie eine "unvorhersehbare" Verteilung?
Ich habe es versucht
cs <- function(n) {
return(rcauchy(n,0,1))
}
in R für eine Vielzahl von n Werten und stellte fest, dass sie gelegentlich ziemlich unvorhersehbare Werte erzeugen.
Vergleichen Sie das mit zB
as <- function(n) {
return(rnorm(n,0,1))
}
das scheint immer eine "kompakte" Punktewolke zu geben.
Nach diesem Bild sollte es wie die Normalverteilung aussehen? Dies gilt jedoch möglicherweise nur für eine Teilmenge von Werten. Oder besteht der Trick darin, dass die Cauchy-Standardabweichungen (im Bild unten) viel langsamer konvergieren (nach links und rechts) und somit schwerwiegendere Ausreißer zulassen, wenn auch mit geringen Wahrscheinlichkeiten?
Hier sind wie normale Wohnmobile und Wohnmobile Cauchy-Wohnmobile.
Aber ist es am äußersten Rand der Ausreißer möglich, dass die Endpunkte des Cauchy-PDFs niemals zusammenlaufen?
quelle
Antworten:
Während eine Reihe von Beiträgen vor Ort verschiedene Grundstücke des Cauchy ansprach, gelang es mir nicht, eines zu finden, das sie wirklich zusammengelegt hatte. Hoffentlich ist dies ein guter Ort, um einige zu sammeln. Ich kann dies erweitern.
Schwere Schwänze
Während der Cauchy symmetrisch und grob glockenförmig ist, ähnlich wie die normale Verteilung, hat er viel schwerere Schwänze (und weniger eine "Schulter"). Beispielsweise gibt es eine kleine, aber eindeutige Wahrscheinlichkeit, dass eine Cauchy-Zufallsvariable mehr als 1000 Interquartilbereiche vom Median entfernt liegt - ungefähr in der gleichen Größenordnung wie eine normale Zufallsvariable, die mindestens 2,67 Interquartilbereiche vom Median entfernt liegt.
Varianz
Die Varianz des Cauchy ist unendlich.
Bearbeiten: JG sagt in Kommentaren, dass es undefiniert ist. Wenn wir die Varianz als Durchschnitt der Hälfte des quadratischen Abstandes zwischen Wertepaaren nehmen - was mit der Varianz identisch ist, wenn beide existieren, dann wäre sie unendlich. Nach der üblichen Definition ist JG jedoch korrekt. [Im Gegensatz zu Stichprobenmitteln, die nicht wirklich zu irgendetwas konvergieren, wenn n groß wird, nimmt die Verteilung der Stichprobenvarianzen mit zunehmender Stichprobengröße stetig zu; Die Skala nimmt proportional zu n zu, oder die Verteilung der logarithmischen Varianz nimmt linear mit der Stichprobengröße zu. Es scheint produktiv zu sein, tatsächlich zu bedenken, dass die Version der Varianz, die Unendlich ergibt, uns etwas sagt.]
Es gibt natürlich Standardabweichungen der Stichprobe, aber je größer die Stichprobe ist, desto größer ist ihre Tendenz (z. B. liegt die mittlere Standardabweichung der Stichprobe bei n = 10 in der Nähe des 3,67-fachen des Skalenparameters (halber IQR), jedoch bei n = 100 es geht um 11.9).
Bedeuten
Die Cauchy-Verteilung hat nicht einmal einen endlichen Mittelwert. das Integral für den Mittelwert konvergiert nicht. Infolgedessen gelten selbst die Gesetze der großen Zahlen nicht - wenn n wächst, konvergieren die Stichprobenmittelwerte nicht zu einer festgelegten Menge (tatsächlich gibt es nichts, woran sie konvergieren können).
Tatsächlich entspricht die Verteilung des Stichprobenmittelwerts aus einer Cauchy-Verteilung der Verteilung einer einzelnen Beobachtung (!). Der Schwanz ist so schwer, dass das Addieren von mehr Werten zu der Summe einen wirklich extremen Wert wahrscheinlich genug macht, um nur die Division durch einen größeren Nenner zu kompensieren, wenn der Mittelwert genommen wird.
Vorhersagbarkeit
Sie können durchaus vernünftige Vorhersageintervalle für Beobachtungen aus einer Cauchy-Verteilung erstellen. Es gibt einfache, ziemlich effiziente Schätzer, die eine gute Leistung bei der Schätzung von Ort und Maßstab erbringen, und es können ungefähre Vorhersageintervalle erstellt werden - zumindest in diesem Sinne sind Cauchy-Variablen "vorhersehbar". Der Schwanz erstreckt sich jedoch sehr weit, sodass ein Intervall mit hoher Wahrscheinlichkeit sehr breit sein kann.
Wenn Sie versuchen, das Zentrum der Verteilung vorherzusagen (z. B. in einem Regressionstyp-Modell), kann dies in gewissem Sinne relativ einfach vorherzusagen sein. Der Cauchy ist ziemlich hoch (für ein typisches Maß der Skalierung liegt die Verteilung "nahe" am Zentrum), sodass das Zentrum relativ gut geschätzt werden kann, wenn Sie einen geeigneten Schätzer haben.
Hier ist ein Beispiel:
Ich habe Daten aus einer linearen Beziehung mit Standard-Cauchy-Fehlern (100 Beobachtungen, Achsenabschnitt = 3, Steigung = 1,5) und geschätzten Regressionslinien mit drei Methoden generiert, die für y-Ausreißer relativ robust sind: Tukey-3-Gruppenlinie (rot), Theil-Regression (dunkelgrün) und L1-Regression (blau). Keiner ist im Cauchy besonders effizient - obwohl sie alle ausgezeichnete Ausgangspunkte für eine effizientere Herangehensweise darstellen würden.
Trotzdem stimmen die drei im Vergleich zum Rauschen der Daten fast überein und liegen sehr nahe an der Mitte, in der die Daten laufen. in diesem Sinne ist der Cauchy eindeutig "vorhersehbar".
Der Median der absoluten Residuen ist für jede der Linien nur wenig größer als 1 (die meisten Daten liegen ziemlich nahe an der geschätzten Linie); auch in diesem sinne ist der cauchy "vorhersehbar".
Für das Grundstück links gibt es einen großen Ausreißer. Um die Daten besser sehen zu können, habe ich die Skala auf der y-Achse rechts verkleinert.
quelle
Die Cauchy-Verteilung kommt in der Natur ziemlich häufig vor, insbesondere dort, wo Sie irgendeine Form von Wachstum haben. Es erscheint auch dort, wo sich Dinge drehen, wie z. B. Steine, die Hügel hinunter rollen. Sie werden es als die Kernverteilung einer hässlichen Mischung von Verteilungen in Börsenrenditen finden, jedoch nicht in Renditen für Dinge wie Antiquitäten, die in Auktionen verkauft werden. Antiquitätenrenditen gehören ebenfalls zu einer Verteilung ohne Mittelwert oder Varianz, jedoch nicht zu einer Cauchy-Verteilung. Die Unterschiede ergeben sich aus den Unterschieden in den Regeln der Auktion. Wenn Sie die Regeln der NYSE ändern, verschwindet die Cauchy-Distribution und es erscheint eine andere.
Um zu verstehen, warum es normalerweise vorhanden ist, stellen Sie sich vor, Sie wären Bieter in einer großen Anzahl von Bietern und potenziellen Bietern. Da Aktien in einer Doppelauktion verkauft werden, gilt der Fluch des Gewinners nicht. Im Gleichgewicht ist das rationale Verhalten, Ihren erwarteten Wert zu bieten. Eine Erwartung ist eine Form des Mittels. Eine Verteilung der mittleren Schätzungen konvergiert zur Normalität, wenn die Stichprobengröße unendlich wird.
Dies macht den Aktienmarkt sehr volatil, wenn man denkt, dass der Aktienmarkt eine normale oder logarithmische Normalverteilung haben sollte, aber nicht unerwartet volatil, wenn Sie die schweren Schwänze erwarten.
Ich habe sowohl die Bayes'sche als auch die Frequent'sche Vorhersageverteilung für die Cauchy'sche Verteilung konstruiert und ihre Annahmen vorausgesetzt, dass sie gut funktionieren. Die Bayes'sche Vorhersage minimiert die Kullback-Leibler-Divergenz, was bedeutet, dass sie für einen bestimmten Datensatz so nahe wie möglich an der Natur liegt. Die häufige Vorhersage minimiert die durchschnittliche Kullback-Leibler-Abweichung über viele unabhängige Vorhersagen aus vielen unabhängigen Stichproben. Es funktioniert jedoch nicht unbedingt gut für eine Stichprobe, wie man es bei durchschnittlicher Abdeckung erwarten würde. Die Schwänze laufen zusammen, aber sie laufen langsam zusammen.
Der multivariate Cauchy hat noch mehr störende Eigenschaften. Zum Beispiel kann es offensichtlich nicht kovarieren, da es keinen Mittelwert gibt, aber es hat nichts Ähnliches wie eine Kovarianzmatrix. Cauchy-Fehler sind immer kugelförmig, wenn im System nichts anderes vor sich geht. Darüber hinaus ist auch nichts unabhängig, obwohl nichts koväriert. Um zu verstehen, wie wichtig dies im praktischen Sinne sein könnte, stellen Sie sich zwei Länder vor, die beide wachsen und miteinander handeln. Die Fehler in einem sind nicht unabhängig von den Fehlern im anderen. Meine Fehler beeinflussen deine Fehler. Wenn ein Land von einem Verrückten übernommen wird, sind die Fehler dieses Verrückten überall zu spüren. Andererseits können die anderen Länder Beziehungen trennen, um die Auswirkungen zu minimieren, da die Auswirkungen nicht linear sind, wie es bei einer Kovarianzmatrix zu erwarten wäre.
Dies ist auch das, was Trumps Handelskrieg so gefährlich macht. Die zweitgrößte Volkswirtschaft der Welt nach der Ausrufung des Wirtschaftskrieges durch den Handel gegen jede andere Volkswirtschaft finanziert diesen Krieg, indem sie sich das Geld leiht, um ihn von den Nationen zu bekämpfen, denen sie den Krieg erklärt hat. Wenn diese Abhängigkeiten abgewickelt werden müssen, ist dies in einer Weise hässlich, an die sich niemand erinnern kann. Ein ähnliches Problem hatten wir seit der Jackson-Regierung nicht mehr, als die Bank of England den Atlantikhandel untersagte.
Die Cauchy-Verteilung ist faszinierend, weil sie in exponentiellen und S-Kurven-wachsenden Systemen auftritt. Sie verwirren die Menschen, weil ihr tägliches Leben mit Dichten gefüllt ist, die einen Mittelwert haben und normalerweise eine Varianz haben. Es macht die Entscheidungsfindung sehr schwierig, weil die falschen Lektionen gelernt werden.
quelle