Vergleich der Schwänze zweier Probenverteilungen

13

Ich habe zwei Datensätze, die ungefähr um Null zentriert sind, aber ich vermute, dass sie unterschiedliche Schwänze haben. Ich kenne ein paar Tests, um die Verteilung mit einer Normalverteilung zu vergleichen, aber ich möchte die beiden Verteilungen direkt vergleichen.

Gibt es einen einfachen Test, um die Schwanzfettigkeit von 2 Verteilungen zu vergleichen ?

Danke
fRed

RockScience
quelle
Ist das "fat-tails" -Tag wirklich sinnvoll (für zukünftige Fragen)?
chl
@chl Du sagst mir, ich bin sicher nicht so erfahren wie du in der Statistik. Aber meiner Meinung nach ist es eine klassische Tendenz, die Bedeutung von Schwänzen zu unterschätzen. Hast du die Arbeit von Mandelbrot gelesen? Fat Tails spielen in der angewandten Finanzstatistik eine wichtige Rolle, und die Kreditkrise des Jahres 2008 ist zum Teil auf einige Preismodelle zurückzuführen, die von Normalität ausgehen und die Fat Tails einiger Korrelationsverteilungen unterschätzen. Wir können das in einem anderen Thread diskutieren :)
RockScience
1
Diese Frage ist möglicherweise interessant, aber eine Klarstellung wäre wünschenswert. Machst du dir Sorgen um einen Schwanz oder beides? Wie messen Sie "Fett"? (Sind Sie bereit, die beiden Verteilungen zu verschieben und neu zu skalieren, um den Vergleich durchzuführen?) Wie messen Sie Abweichungen in der "Fettigkeit"? Wenn Sie über einen Hypothesentest nachdenken, wie lautet dann die alternative Hypothese genau?
Whuber
@RockScience, ich habe zwei Distributionen und möchte nur die Schwänze vergleichen. Hast du es geschafft, wie es geht? Ich weiß, Sie können Kurtosis berechnen, aber wie haben Sie getestet, dass beide Schwänze unterschiedlich sind?
user2380782

Antworten:

2

Wenn wir eine Schwelle mit dem Wort Lambda konstruieren, können wir die Gleichheit zweier Mittelwerte oder Varianzen der beiden Verteilungen testen, die auf die Schwanzregion (\ lambda, unendlich) beschränkt sind, basierend auf zwei Datensätzen von Beobachtungen, die in diese Schwanzregion fallen. Natürlich kann der T-Test oder der F-Test mit zwei Stichproben in Ordnung sein, aber nicht leistungsfähig, da eine auf diesen Schwanzbereich beschränkte Zufallsvariable nicht normal ist, selbst wenn es die ursprünglichen sind.

Lin-An Chen
quelle
Die Extremwerttheorie untersucht solche abgeschnittenen Verteilungen: Asymptotisch gehört die Verteilung der Schwänze normalerweise zur generalisierten Pareto- Familie. Man könnte auch versuchen, die Daten an diese Verteilungsfamilie anzupassen und die Parameter zu vergleichen.
Vincent Zoonekynd
@Vincent Ein Schwanz kann praktisch jede Verteilung haben. Die Extremwerttheorie sagt wenig über die Schwänze aus: Sie konzentriert sich auf die Verteilung der Maxima (oder Minima) von iid-Proben, was etwas ganz anderes ist.
whuber
1

Wie wäre es mit der Anpassung der verallgemeinerten Lambda-Verteilung? und des Bootstrapping-Konfidenzintervalls für den 3. und 4. Parameter?

Mike Lawrence
quelle
2
Warum ist diese Verteilungsfamilie für dieses Problem besonders gut geeignet und nicht eine andere Familie wie die Pearson-Verteilungen?
whuber
1

Der Chi-Quadrat-Test (Goodness-of-Fit-Test) kann die Schwänze zweier Verteilungen sehr gut vergleichen, da er so aufgebaut ist, dass zwei Verteilungen anhand von Wertebechern verglichen werden (grafisch dargestellt durch ein Histogramm). Und die Schwänze werden in den weitaus meisten Eimern bestehen.

Obwohl sich dieser Test auf die gesamte Verteilung konzentriert, können Sie nicht nur den Schwanz beobachten, wie viel vom Chi-Quadrat-Wert oder der Divergenz durch den Unterschied in der Fettigkeit des Schwanzes abgeleitet wird.

Beachten Sie, dass das abgeleitete Histogramm Ihnen visuell viel mehr Informationen über die jeweilige Fettheit der Schwänze liefern kann als jede testbezogene statistische Signifikanz. Es ist eine Sache, festzustellen, dass die Schwanzfettwerte statistisch unterschiedlich sind. Es ist eine andere, es visuell zu beobachten. Ein Bild sagt mehr als tausend Worte. Manchmal sind es auch tausend Zahlen wert (es ist sinnvoll, wenn alle Zahlen in Diagrammen eingekapselt sind).

Sympa
quelle
3
Es scheint mir, dass der Chi-Quadrat-Test besonders schlecht darin ist , Unterschiede in den Schwänzen zu identifizieren. Wenn die Schwänze von vielen Behältern bedeckt sind, sind - weil es sich um Schwänze handelt! - möglicherweise nur wenige Daten in den Behältern vorhanden, wodurch die Chi-Quadrat-Approximation ungültig wird. Wenn die Schwänze von wenigen Behältern bedeckt sind, verlieren Sie fast die gesamte Fähigkeit, ihre Formen zu unterscheiden, und was Sie tun, um zu unterscheiden, ist möglicherweise nicht besonders relevant oder nützlich. (Ein Problem , das wir gegen hier vorhast ist , dass „Safts tail“ nicht definiert wurde, so dass die Frage wirklich zu vage ist gut zu beantworten.)
whuber
@whuber, ich kann nicht sagen, ob ich Ihrem Kommentar zustimme, da ich einen Ihrer Punkte nicht vollständig verstehe. Was genau meinen Sie mit "Ungültigmachen der Chi-Quadrat-Näherung"?
Sympa
Der Chi-Quadrat-Test basiert auf einer Näherung der Normaltheorie an die wahre Verteilung der Chi-Quadrat-Statistik. Typischerweise wird diese Annäherung schlecht, wenn die Bin-Populationen unter 5 fallen.
whuber
@whuber, danke für die Erklärung. In Anbetracht dessen habe ich das Gefühl, dass der erste Satz Ihres anfänglichen Kommentars möglicherweise nicht so nuanciert ist, wie Sie es sich gedacht haben ("der Chi-Quadrat-Test wird besonders schlecht darin sein, Unterschiede in den Schwänzen zu identifizieren"). Vielleicht wäre die passendere Aussage "es kommt darauf an ..." gewesen. Dieser Test hat mehrere Vorzüge, einschließlich der Tatsache, dass Sie gezwungen sind, die relevanten Klassen zu definieren. Ebenso wichtig ist die Erleichterung der Erstellung eines Histogramms. Zugegeben, wenn Sie weniger als 5 Beobachtungen in einem Behälter haben, verlieren Sie die Genauigkeit, wie Sie gut erklärt haben.
Sympa
@ Gaetan Ich schätze die Aufmerksamkeit auf Nuance, aber in diesem Fall scheint das Urteil gerechtfertigt. Im Vergleich zu den vielen anderen verfügbaren Methoden zum Vergleichen von Verteilungen hält der Chi-Quadrat-Test nicht gut durch. Wenn Sie relevante Bins anhand der Daten selbst definieren, ist der Test ungültig. Außerdem ist ein Histogramm normalerweise keine nützliche Methode, um Verteilungsschwänze zu betrachten. Ich zögere es jedoch, Alternativen vorzuschlagen, da das Problem unklar ist: Was könnte es für zwei Verteilungen bedeuten, die gleiche "Dicke der Schwänze" zu haben? Kurtosis ist eine Möglichkeit, aber es ist eine grobe Maßnahme.
Whuber