Ist die Cauchy-Verteilung irgendwie eine "unvorhersehbare" Verteilung?

14

Ist die Cauchy-Verteilung irgendwie eine "unvorhersehbare" Verteilung?

Ich habe es versucht

cs <- function(n) {
  return(rcauchy(n,0,1))
}

in R für eine Vielzahl von n Werten und stellte fest, dass sie gelegentlich ziemlich unvorhersehbare Werte erzeugen.

Vergleichen Sie das mit zB

as <- function(n) {
  return(rnorm(n,0,1))
}

das scheint immer eine "kompakte" Punktewolke zu geben.

Nach diesem Bild sollte es wie die Normalverteilung aussehen? Dies gilt jedoch möglicherweise nur für eine Teilmenge von Werten. Oder besteht der Trick darin, dass die Cauchy-Standardabweichungen (im Bild unten) viel langsamer konvergieren (nach links und rechts) und somit schwerwiegendere Ausreißer zulassen, wenn auch mit geringen Wahrscheinlichkeiten?

https://i.stack.imgur.com/zGTLU.png

Hier sind wie normale Wohnmobile und Wohnmobile Cauchy-Wohnmobile.

Bildbeschreibung hier eingeben

Aber ist es am äußersten Rand der Ausreißer möglich, dass die Endpunkte des Cauchy-PDFs niemals zusammenlaufen?

mavavilj
quelle
9
1. Ihre Frage ist vage / unklar, daher ist es schwer zu beantworten. zB was bedeutet "unvorhersehbar" in deiner Frage? Was meinen Sie mit "den Cauchy-Standardabweichungen" und der Konvergenz gegen Ende? Sie scheinen nirgendwo Standardabweichungen zu berechnen. Standardabweichungen von was genau? 2. In vielen Beiträgen vor Ort werden Eigenschaften des Cauchy besprochen, die Ihnen dabei helfen können, Ihre Frage zu fokussieren. Es kann sich auch lohnen, in Wikipedia nachzusehen. 3. Ich würde vorschlagen, den Begriff "glockenförmig" zu vermeiden. beide Dichten scheinen grob wie eine Glocke geformt zu sein; Nennen Sie sie einfach bei ihren Namen.
Glen_b
4
Sicherlich ist der Cauchy sehr schwerschwänzig.
Glen_b
1
Ich habe ein paar Fakten gepostet. Hoffentlich helfen diese Ihnen dabei, herauszufinden, was Sie wissen möchten, damit Sie Ihre Frage verfeinern können.
Glen_b
1
|x|x
2
Mit dem Normalen sind große Ausreißer möglich, aber sie sind unglaublich selten . Die Dichte (und im oberen Schwanz, besonders relevant für Ausreißer einer bestimmten Größe, die Überlebensfunktion) für die normalen Köpfe gegen 0 geht viel schneller als beim Cauchy - aber trotzdem beide Dichten (und beide Überlebensfunktionen) nähere dich 0 und erreiche es auch nie.
Glen_b

Antworten:

39

Während eine Reihe von Beiträgen vor Ort verschiedene Grundstücke des Cauchy ansprach, gelang es mir nicht, eines zu finden, das sie wirklich zusammengelegt hatte. Hoffentlich ist dies ein guter Ort, um einige zu sammeln. Ich kann dies erweitern.

Schwere Schwänze

Während der Cauchy symmetrisch und grob glockenförmig ist, ähnlich wie die normale Verteilung, hat er viel schwerere Schwänze (und weniger eine "Schulter"). Beispielsweise gibt es eine kleine, aber eindeutige Wahrscheinlichkeit, dass eine Cauchy-Zufallsvariable mehr als 1000 Interquartilbereiche vom Median entfernt liegt - ungefähr in der gleichen Größenordnung wie eine normale Zufallsvariable, die mindestens 2,67 Interquartilbereiche vom Median entfernt liegt.

Varianz

Die Varianz des Cauchy ist unendlich.

Bearbeiten: JG sagt in Kommentaren, dass es undefiniert ist. Wenn wir die Varianz als Durchschnitt der Hälfte des quadratischen Abstandes zwischen Wertepaaren nehmen - was mit der Varianz identisch ist, wenn beide existieren, dann wäre sie unendlich. Nach der üblichen Definition ist JG jedoch korrekt. [Im Gegensatz zu Stichprobenmitteln, die nicht wirklich zu irgendetwas konvergieren, wenn n groß wird, nimmt die Verteilung der Stichprobenvarianzen mit zunehmender Stichprobengröße stetig zu; Die Skala nimmt proportional zu n zu, oder die Verteilung der logarithmischen Varianz nimmt linear mit der Stichprobengröße zu. Es scheint produktiv zu sein, tatsächlich zu bedenken, dass die Version der Varianz, die Unendlich ergibt, uns etwas sagt.]

Es gibt natürlich Standardabweichungen der Stichprobe, aber je größer die Stichprobe ist, desto größer ist ihre Tendenz (z. B. liegt die mittlere Standardabweichung der Stichprobe bei n = 10 in der Nähe des 3,67-fachen des Skalenparameters (halber IQR), jedoch bei n = 100 es geht um 11.9).

Bedeuten

Die Cauchy-Verteilung hat nicht einmal einen endlichen Mittelwert. das Integral für den Mittelwert konvergiert nicht. Infolgedessen gelten selbst die Gesetze der großen Zahlen nicht - wenn n wächst, konvergieren die Stichprobenmittelwerte nicht zu einer festgelegten Menge (tatsächlich gibt es nichts, woran sie konvergieren können).

Tatsächlich entspricht die Verteilung des Stichprobenmittelwerts aus einer Cauchy-Verteilung der Verteilung einer einzelnen Beobachtung (!). Der Schwanz ist so schwer, dass das Addieren von mehr Werten zu der Summe einen wirklich extremen Wert wahrscheinlich genug macht, um nur die Division durch einen größeren Nenner zu kompensieren, wenn der Mittelwert genommen wird.

Vorhersagbarkeit

Sie können durchaus vernünftige Vorhersageintervalle für Beobachtungen aus einer Cauchy-Verteilung erstellen. Es gibt einfache, ziemlich effiziente Schätzer, die eine gute Leistung bei der Schätzung von Ort und Maßstab erbringen, und es können ungefähre Vorhersageintervalle erstellt werden - zumindest in diesem Sinne sind Cauchy-Variablen "vorhersehbar". Der Schwanz erstreckt sich jedoch sehr weit, sodass ein Intervall mit hoher Wahrscheinlichkeit sehr breit sein kann.

Wenn Sie versuchen, das Zentrum der Verteilung vorherzusagen (z. B. in einem Regressionstyp-Modell), kann dies in gewissem Sinne relativ einfach vorherzusagen sein. Der Cauchy ist ziemlich hoch (für ein typisches Maß der Skalierung liegt die Verteilung "nahe" am Zentrum), sodass das Zentrum relativ gut geschätzt werden kann, wenn Sie einen geeigneten Schätzer haben.

Hier ist ein Beispiel:

Ich habe Daten aus einer linearen Beziehung mit Standard-Cauchy-Fehlern (100 Beobachtungen, Achsenabschnitt = 3, Steigung = 1,5) und geschätzten Regressionslinien mit drei Methoden generiert, die für y-Ausreißer relativ robust sind: Tukey-3-Gruppenlinie (rot), Theil-Regression (dunkelgrün) und L1-Regression (blau). Keiner ist im Cauchy besonders effizient - obwohl sie alle ausgezeichnete Ausgangspunkte für eine effizientere Herangehensweise darstellen würden.

Trotzdem stimmen die drei im Vergleich zum Rauschen der Daten fast überein und liegen sehr nahe an der Mitte, in der die Daten laufen. in diesem Sinne ist der Cauchy eindeutig "vorhersehbar".

Der Median der absoluten Residuen ist für jede der Linien nur wenig größer als 1 (die meisten Daten liegen ziemlich nahe an der geschätzten Linie); auch in diesem sinne ist der cauchy "vorhersehbar".

lineare Beziehung mit Cauchy-Fehlern und drei angepassten Regressionslinien

Für das Grundstück links gibt es einen großen Ausreißer. Um die Daten besser sehen zu können, habe ich die Skala auf der y-Achse rechts verkleinert.

Glen_b - Setzen Sie Monica wieder ein
quelle
1
Schwere Schwänze und Varianz im Unendlichen hängen zusammen, oder?
Mavavilj
Bestimmt. Der undefinierte Mittelwert hängt auch mit den schweren Schwänzen zusammen.
Glen_b
„Es gibt einfache, recht effiziente Schätzer, die sich gut für die Schätzung von Standort und Maßstab eignen, und es können ungefähre Vorhersageintervalle erstellt werden.“ - Können Sie die Referenzen angeben?
Carlos Cinelli
Kommentare sind nicht für eine längere Diskussion gedacht. Diese Unterhaltung wurde in den Chat verschoben .
gung - Wiedereinsetzung von Monica
@Carlos Da gibt es zwei verschiedene Probleme: (i) einfache, ziemlich effiziente Schätzer für die Position (z. B. einen angemessen zugeschnittenen Mittelwert) und die Skalierung im Cauchy und (ii) Methoden zum Erstellen eines Vorhersageintervalls, das für den Cauchy funktionieren würde. Ich denke, das erste Thema wird bereits vor Ort behandelt, und das zweite wäre eine eigene Frage wert.
Glen_b
1

μσnμ±σμ±636,62σ

σ

Die Cauchy-Verteilung kommt in der Natur ziemlich häufig vor, insbesondere dort, wo Sie irgendeine Form von Wachstum haben. Es erscheint auch dort, wo sich Dinge drehen, wie z. B. Steine, die Hügel hinunter rollen. Sie werden es als die Kernverteilung einer hässlichen Mischung von Verteilungen in Börsenrenditen finden, jedoch nicht in Renditen für Dinge wie Antiquitäten, die in Auktionen verkauft werden. Antiquitätenrenditen gehören ebenfalls zu einer Verteilung ohne Mittelwert oder Varianz, jedoch nicht zu einer Cauchy-Verteilung. Die Unterschiede ergeben sich aus den Unterschieden in den Regeln der Auktion. Wenn Sie die Regeln der NYSE ändern, verschwindet die Cauchy-Distribution und es erscheint eine andere.

Um zu verstehen, warum es normalerweise vorhanden ist, stellen Sie sich vor, Sie wären Bieter in einer großen Anzahl von Bietern und potenziellen Bietern. Da Aktien in einer Doppelauktion verkauft werden, gilt der Fluch des Gewinners nicht. Im Gleichgewicht ist das rationale Verhalten, Ihren erwarteten Wert zu bieten. Eine Erwartung ist eine Form des Mittels. Eine Verteilung der mittleren Schätzungen konvergiert zur Normalität, wenn die Stichprobengröße unendlich wird.

rt=pt+1pt
. Das macht es zum Verhältnis zweier Normalverteilungen. Wenn die Integration nicht bei (0,0), sondern um die Gleichgewichtspreise erfolgt, erhalten Sie eine abgeschnittene Cauchy-Verteilung. Wenn Sie die Renditen im Laufe des 20. Jahrhunderts in einzelne Transaktionen aufteilen, werden Sie feststellen, dass ein abgeschnittener Cauchy den tatsächlich beobachteten Renditen sehr nahe kommt, sobald Sie Fusionen, Liquiditätskosten und Insolvenzen beseitigen.

Dies macht den Aktienmarkt sehr volatil, wenn man denkt, dass der Aktienmarkt eine normale oder logarithmische Normalverteilung haben sollte, aber nicht unerwartet volatil, wenn Sie die schweren Schwänze erwarten.

Ich habe sowohl die Bayes'sche als auch die Frequent'sche Vorhersageverteilung für die Cauchy'sche Verteilung konstruiert und ihre Annahmen vorausgesetzt, dass sie gut funktionieren. Die Bayes'sche Vorhersage minimiert die Kullback-Leibler-Divergenz, was bedeutet, dass sie für einen bestimmten Datensatz so nahe wie möglich an der Natur liegt. Die häufige Vorhersage minimiert die durchschnittliche Kullback-Leibler-Abweichung über viele unabhängige Vorhersagen aus vielen unabhängigen Stichproben. Es funktioniert jedoch nicht unbedingt gut für eine Stichprobe, wie man es bei durchschnittlicher Abdeckung erwarten würde. Die Schwänze laufen zusammen, aber sie laufen langsam zusammen.

Der multivariate Cauchy hat noch mehr störende Eigenschaften. Zum Beispiel kann es offensichtlich nicht kovarieren, da es keinen Mittelwert gibt, aber es hat nichts Ähnliches wie eine Kovarianzmatrix. Cauchy-Fehler sind immer kugelförmig, wenn im System nichts anderes vor sich geht. Darüber hinaus ist auch nichts unabhängig, obwohl nichts koväriert. Um zu verstehen, wie wichtig dies im praktischen Sinne sein könnte, stellen Sie sich zwei Länder vor, die beide wachsen und miteinander handeln. Die Fehler in einem sind nicht unabhängig von den Fehlern im anderen. Meine Fehler beeinflussen deine Fehler. Wenn ein Land von einem Verrückten übernommen wird, sind die Fehler dieses Verrückten überall zu spüren. Andererseits können die anderen Länder Beziehungen trennen, um die Auswirkungen zu minimieren, da die Auswirkungen nicht linear sind, wie es bei einer Kovarianzmatrix zu erwarten wäre.

Dies ist auch das, was Trumps Handelskrieg so gefährlich macht. Die zweitgrößte Volkswirtschaft der Welt nach der Ausrufung des Wirtschaftskrieges durch den Handel gegen jede andere Volkswirtschaft finanziert diesen Krieg, indem sie sich das Geld leiht, um ihn von den Nationen zu bekämpfen, denen sie den Krieg erklärt hat. Wenn diese Abhängigkeiten abgewickelt werden müssen, ist dies in einer Weise hässlich, an die sich niemand erinnern kann. Ein ähnliches Problem hatten wir seit der Jackson-Regierung nicht mehr, als die Bank of England den Atlantikhandel untersagte.

Die Cauchy-Verteilung ist faszinierend, weil sie in exponentiellen und S-Kurven-wachsenden Systemen auftritt. Sie verwirren die Menschen, weil ihr tägliches Leben mit Dichten gefüllt ist, die einen Mittelwert haben und normalerweise eine Varianz haben. Es macht die Entscheidungsfindung sehr schwierig, weil die falschen Lektionen gelernt werden.

Dave Harris
quelle
Ich mag die kühne Art und Weise, wie mathematische Eigenschaften in dieser Antwort auf das reale Verhalten abgebildet werden. Aber sollten Sie nicht erwähnen, dass ein (beidseitig) verkürzter Cauchy alle seine Momente endlich hat?
Alecos Papadopoulos
Es ist nur links abgeschnitten. Das nominale planetarische Budget ist rechts stochastisch und da Währungssysteme keine konservierenden Systeme sind, sind sie rechts unendlich.
Dave Harris