Kurtosis der erfundenen Verteilung

8

Schauen Sie sich das Bild unten an. Die blaue Linie zeigt das normale Standard-PDF an. Die rote Zone soll gleich der Summe der Grauzonen sein (Entschuldigung für das schreckliche Zeichnen).

Ich frage mich, ob wir eine neue Verteilung mit höherem Peak erstellen können, indem wir Grauzonen an die Spitze (rote Zone) des normalen PDFs verschieben.

neue Verteilung mit höherem Peak

Wenn eine solche Transformation durchgeführt werden kann, was halten Sie dann von der Kurtosis dieser neuen Distribution? Leptokurtisch? Aber es hat die gleichen Schwänze wie die Normalverteilung! Nicht definiert?

Yal dc
quelle
1
Die Frage ist gut aussehend, aber die Zeichnung ist in der Tat schrecklich. Die schärfere Kurtic-als-Normal-Verteilung soll schwerer sein. Aber Sie haben diese Schwanzregionen nicht gezeichnet (die auch rot gefärbt sein sollten). Was sind ihre Bereiche, die Sie zusammenzählen sollen?
ttnphns
1
Warum nicht versuchen? Simulieren Sie (sagen wir) 10.000 aus einer Standardnormalen und verschieben Sie dann einige Zahlen, um die gewünschte Verteilung zu erzielen. Dann könnten Sie die Grenze mit einem Programm ziehen und auch die Kurtosis berechnen.
Peter Flom
Wenn Sie bereit sind, die Differenzierbarkeit der Dichte zu opfern, könnten Sie eine solche Verteilung konstruieren (die eine stückweise Dichte hätte).
Alecos Papadopoulos
2
@ttnphns, sorry, wenn das Tag dich irregeführt hat. Ich hoffte, dass das Bild klar machen würde, dass ich keine Änderungen an den Schwänzen will. In der Regel wird in Lehrbüchern die Kurtosis diskutiert, indem die gleichzeitige Änderung des Peaks und der Schwänze verglichen wird. Ich möchte verstehen, was über Kurtosis gesagt werden kann, wenn nur der Peak höher wird.
Yal dc
1
Yal dc - Sie sollten beachten, dass sich Ihre Standardabweichung geändert hat, sodass die 'Schwänze' nicht gleich sind, es sei denn, Sie verwenden einige bestimmte Definitionen vontail
Glen_b -Reinstate Monica

Antworten:

12

Es wird unendlich viele Verteilungen geben, die Ihrer Zeichnung sehr ähnlich sehen, mit einer Vielzahl unterschiedlicher Werte für Kurtosis.

Unter den besonderen Bedingungen in Ihrer Frage und angesichts der Tatsache, dass der Übergangspunkt innerhalb oder zumindest nicht zu weit außerhalb von±1 , sollte es vorkommen, dass Sie eine etwas größere Kurtosis erhalten als bei der normalen. Ich werde drei Fälle zeigen, in denen dies geschieht, und dann einen zeigen, in dem es kleiner ist - und erklären, warum dies geschieht.

Da und das normale Standard-PDF bzw. -Cdf sind, schreiben wir uns eine kleine FunktionΦ ( x )ϕ(x)Φ(x)

f(x)={ϕ(x);|x|>ta+b.g(x);|x|t 

für eine kontinuierliche, symmetrische Dichte (mit entsprechendem cdf ) mit dem Mittelwert , so dass und .G 0gG0b=Φ(t)½t.ϕ(t)G(t)½t.g(t)a=ϕ(t)b.g(t)

Das heißt, und werden gewählt, um die Dichte kontinuierlich zu machen und zu integrieren .ab1

Beispiel 1 Betrachten Sieund,g(x)=3ϕ(3x)t=1

Geben Sie hier die Bildbeschreibung ein

Das sieht ungefähr so ​​aus wie Ihre Zeichnung, die hier durch den folgenden R-Code generiert wird:

f <- function(x, t=1,
              dg=function(x) 2*dnorm(2*x),
              pg=function(x) pnorm(2*x),
              b=(pnorm(t) - 0.5 - t*dnorm(t))/ (pg(t) - 0.5 - t*dg(t)),
              a=dnorm(t)-b*dg(t) ) {
       ifelse(abs(x)>t,dnorm(x),a+b*dg(x))
     }

f1 <- function(x) f(x,t=1,dg=function(x) 3*dnorm(3*x),pg=function(x) pnorm(3*x))
curve(f1,-4,4,col=2)
lines(x,dnorm(x),col=3)

Nun die Berechnungen. Lassen Sie uns eine Funktion , um auszuwerten :xpf1(x)

fp <- function(x,p=2) x^p*f1(x)

so können wir die Momente bewerten. Zuerst die Varianz:

 integrate(fp,-Inf,Inf)  # should be just smaller than 1
0.9828341 with absolute error < 1.4e-07

Weiter der vierte zentrale Moment:

 integrate(fp,-Inf,Inf,p=4) # should be just smaller than 3
2.990153 with absolute error < 8.3e-06

Wir brauchen das Verhältnis dieser Zahlen, das eine Genauigkeit von etwa 5 Stellen haben sollte

 integrate(fp,-Inf,Inf,p=4)$value/(integrate(fp,-Inf,Inf)$value^2)
[1] 3.095515

Die Kurtosis ist also ungefähr 3.0955, etwas größer als im Normalfall.

Natürlich könnten wir es algebraisch berechnen und eine genaue Antwort erhalten, aber es besteht keine Notwendigkeit, dies sagt uns, was wir wissen wollen.


Beispiel 2 Mit deroben definiertenFunktionkönnen wir es für alle Arten vonversuchen.fg

Hier ist der Laplace:

library(distr)
D <- DExp(rate = 1) 
f2 <- function(x) f(x,t=1,dg=d(D),pg=p(D))
curve(f2,-4,4,col=2)
lines(x,dnorm(x),col=3)

Geben Sie hier die Bildbeschreibung ein

fp2 <- function(x,p=2) x^p*f2(x)


 integrate(fp2,-Inf,Inf)  # should be just smaller than 1
0.9911295 with absolute error < 1.1e-07
 integrate(fp2,-Inf,Inf,p=4) # should be just smaller than 3
2.995212 with absolute error < 5.9e-06
 integrate(fp2,-Inf,Inf,p=4)$value/(integrate(fp2,-Inf,Inf)$value^2)
[1] 3.049065

Es überrascht nicht, dass ein ähnliches Ergebnis erzielt wird.


Beispiel 3 : Nehmen wirals Cauchy-Verteilung (eine Student-t-Verteilung mit 1 df), aber mit der Skala 2/3 (dh wennein Standard-Cauchy ist, istund setzen Sie den Schwellenwert t (geben Sie die Punkte, außerhalb derer wir zur Normalen 'wechseln') erneut auf 1.gh(x)g(x)=1.5h(1.5x)±t

dg <- function(x) 1.5*dt(1.5*x,df=1)
pg <- function(x) pt(1.5*x,df=1)

f3 <- function(x) f(x,t=1,dg=dg,pg=pg)
curve(f3,-4,4,col=2)
lines(x,dnorm(x),col=3)

Geben Sie hier die Bildbeschreibung ein

fp3 <- function(x,p=2) x^p*f3(x)

 integrate(fp3,-Inf,Inf)  # should be just smaller than 1
0.9915525 with absolute error < 1.1e-07

 integrate(fp3,-Inf,Inf,p=4) # should be just smaller than 3
2.995066 with absolute error < 6.2e-06

 integrate(fp3,-Inf,Inf,p=4)$value/(integrate(fp2,-Inf,Inf)$value^2)
[1] 3.048917

Und nur um zu zeigen, dass wir tatsächlich eine richtige Dichte haben:

 integrate(f3,-Inf,Inf)
1 with absolute error < 9.4e-05

Beispiel 4 :Was passiert jedoch , wenn wir t ändern?

Nehmen Sie und als vorheriges Beispiel, aber ändern Sie den Schwellenwert auf :gGt=2

f4 <- function(x) f(x,t=2,dg=dg,pg=pg)
curve(f4,-4,4,col=2)
lines(x,dnorm(x),col=3)

Geben Sie hier die Bildbeschreibung ein

fp4 <- function(x,p=2) x^p*f4(x)

 integrate(fp4,-Inf,Inf,p=4)$value/(integrate(fp2,-Inf,Inf)$value^2)
[1] 2.755231

Wie kommt es dazu?

Nun, es ist wichtig zu wissen, dass Kurtosis (etwas locker gesprochen) 1+ die quadratische Varianz über :μ±σ

Geben Sie hier die Bildbeschreibung ein

Alle drei Verteilungen haben den gleichen Mittelwert und die gleiche Varianz.

Die schwarze Kurve ist die normale Standarddichte. Die grüne Kurve zeigt eine ziemlich konzentrierte Verteilung um ( die Varianz um ist gering, was zu einer Kurtosis führt, die sich 1 nähert, der kleinstmöglichen). Die rote Kurve zeigt einen Fall, in dem die Verteilung von "weggeschoben" wird . Das heißt, die Kurtosis ist groß.μ±σμ±σμ±σ

In diesem Sinne können wir, wenn wir die Schwellenwerte weit genug außerhalb von einstellen , die Kurtosis unter 3 drücken und haben immer noch einen höheren Peak.μ±σ

Glen_b -Reinstate Monica
quelle
tolle Arbeit. Vielen Dank. Noch eine Frage, wenn es Ihnen nichts ausmacht: Gibt es eine Regel, um zu entscheiden, wo ein Peak endet und wo die Schwänze beginnen?
Yal dc
1
Nicht wirklich. Wenn wir uns auf den kontinuierlichen symmetrischen unimodalen Fall mit endlichem 4. Moment beschränken (da wir über Kurtosis sprechen), halte ich es in vielen Fällen nicht für sinnvoll, etwas außerhalb von "Peak" zu bezeichnen alles in 'the tail', aber manchmal ist es schwer zu sagen. man betrachte beispielsweise ; Wenn nahe , gibt es keinen offensichtlichen Ort, an dem man irgendetwas davon als Schwanz bezeichnen kann. Auf der anderen Seite konnte man mit der Laplace-Verteilung wohl alles auf beiden Seiten der exakten Mitte als Schwanz bezeichnen. μ±σ μ±σf(x)=(3+2a)/6ax2; 1<x<1,0<a<34a0
Glen_b -Rate State Monica
4

Kurtosis ist ein ziemlich missverstandenes Konzept (ich finde LT De Carlos Artikel "Über die Bedeutung und Verwendung von Kurtosis" (1997) eine vernünftige und wertvolle Diskussion und Darstellung der damit verbundenen Probleme).

Also werde ich die naive Sichtweise einnehmen und eine Dichte konstruieren , mit "dünnerem mittleren und höheren Wert im Modus" im Vergleich zur normalen Standarddichte, aber identischen "Schwänzen" mit letzterer. Ich behaupte nicht , dass diese Dichte "übermäßige Kurtosis" aufweist. gX(x)

Diese Dichte wird notwendigerweise schrittweise sein. Um identische linke und rechte "Schwänze" zu haben, sollte ihre funktionale Form für die Intervalle und , wobei ist, mit der Standardnormalen identisch sein Dichte. Im mittleren Intervall sollte es eine andere funktionale Form haben, nenne es . Dieses sollte um Null symmetrisch sein und erfüllen (,a)(a,)a>0ϕ(x)(a,a)h(x)h(x)

1) so dass der Wert der Dichte im Modus höher ist als der Wert der Standardnormalen, und h(0)>ϕ(0)=1/2π

2) so dass stetig ist. ϕ(a)=h(a)=h(a)=ϕ(a)gX(x)

Mehr über, sollte der Einheit über die Domain integrieren, um eine geeignete Dichte zu sein. So wird diese Dichte seingX(x)

gX(x)=ϕ(x)<xah(x)axaϕ(x)ax<

vorbehaltlich der zuvor genannten Beschränkungen für und auch vorbehaltlich h(x)

aϕ(t)dt+aah(t)dt+aϕ(t)dt=1

Dies entspricht der Anforderung, dass die Wahrscheinlichkeitsmasse unter im Intervall gleich der Wahrscheinlichkeitsmasse unter im gleichen Intervall sein muss:h(x)(a,a)ϕ(x)

aa(h(t)ϕ(t))dt=00a(h(t)ϕ(t))dt=0
der letzte Teil aufgrund der Symmetrieeigenschaften.

Um etwas Bestimmtes zu erhalten, werden wir die Dichte der Laplace-Verteilung mit dem Mittelwert Null für "versuchen".h(x)

h(x)=12be|x|b,b>0

Um die verschiedenen zuvor gestellten Anforderungen zu erfüllen, müssen wir:

Für einen höheren Wert im Modus ist

h(0)=12b>ϕ(0)=12π0<b<π/2[1]

Für die Kontinuität gilt

h(a)=ϕ(a)12beab=12πe12a2
ln(2b)ab=ln(2π)12a212a2ab+lnπ/2b

Dies ist ein Quadrat in . Seine Diskriminante ist a

Δa=1b2412lnπ/2b>0

(Es kann leicht überprüft werden, dass es immer positiv ist). Mehr über, wir da nur die positive Wurzel halten soa>0

a=1b+Δa[2]

Schließlich übersetzt sich das Erfordernis, dass sich die Dichte in die Einheit integriert, in

0a12be|x|bdt=0aϕ(t)dt

was durch unkomplizierte Integration zu führt

1eab=2(Φ(a)12)=erf(a/2)[3]

Dies kann numerisch für gelöst werden und so die Dichte, nach der wir , vollständig bestimmen. b

Natürlich könnten auch andere funktionale Formen ausprobiert werden, die um Null symmetrisch sind. Das Laplace-PDF diente nur Expositionszwecken.

Alecos Papadopoulos
quelle
1
Ich fand den Artikel, den Sie erwähnt haben, sehr informativ. Vielen Dank.
Yal dc
1
Ein Vorbehalt zum DeCarlo-Papier: Der allererste Satz des Abstracts ist mathematisch falsch. Er erklärt: "Bei symmetrischen unimodalen Verteilungen zeigt eine positive Kurtosis schwere Schwänze und Spitzenwerte im Vergleich zur Normalverteilung an, während eine negative Kurtosis leichte Schwänze und Ebenheit anzeigt." Es gibt jedoch symmetrische unimodale Verteilungen mit negativer überschüssiger Kurtosis, die unendliche Spitzen aufweisen, und symmetrische unimodale Verteilungen mit unendlicher Kurtosis, die vollkommen flache Spitzen aufweisen.
Peter Westfall
0

Die Kurtosis dieser Verteilung wird wahrscheinlich höher sein als die einer Normalverteilung. Ich sage wahrscheinlich, weil ich dies auf eine grobe Zeichnung stütze, und obwohl es möglich sein könnte zu beweisen, dass eine sich bewegende Masse auf diese Weise immer die Kurtosis erhöht, bin ich mir darüber nicht sicher.

Obwohl es stimmt, dass es die gleichen Schwänze wie eine Normalverteilung hat, hat diese Verteilung eine geringere Varianz als die Normalverteilung, von der es abgeleitet ist. Dies bedeutet, dass seine Schwänze mit den Schwänzen einer Normalverteilung übereinstimmen, jedoch nicht mit einer Normalverteilung mit der gleichen Varianz wie sie. Die normalisierten Schwänze sind also tatsächlich dicker als die Schwänze einer Normalverteilung. Und obwohl dickere Schwänze nicht automatisch mehr Kurtosis bedeuten, wird in diesem Fall das normalisierte vierte Moment wahrscheinlich auch größer sein.

mpr
quelle
Ich bin damit einverstanden, dass die Varianz geringer sein wird. Leider habe ich nicht verstanden, wie die Änderung der Varianz die Schwänze beeinflusst. Denken Sie daran, dass ich nichts mit den Schwänzen gemacht habe. Die verschobenen Punkte wurden in der Nähe des Peaks genommen, nicht von den Schwänzen. Könnte mir helfen, Ihren Standpunkt zu verstehen?
Yal dc
1
Kurtosis wird als normalisiertes viertes Moment definiert, in dem die Normalisierung durch Teilen durch das Quadrat der Varianz durchgeführt wird. Da das Quadrat der Varianz abnimmt, steigt die Kurtosis. In Bezug auf die Schwänze ist es wahr, dass sie sich nicht ändern. Da die Varianz jedoch gesunken ist, müssen Sie Ihre Verteilung mit einer Normalverteilung vergleichen, die dieselbe Varianz wie Ihre aufweist, um den richtigen Vergleich zu erhalten. Diese andere Normalverteilung hat dünnere Schwänze, weil ihre Varianz geringer ist.
mpr
In diesem Fall stimme ich zu. Die Frage ist, wie Sie festgestellt haben, was " der richtige Vergleich " ist. Ist es eine Regel, dass wir Verteilungen mit ähnlicher Varianz verwenden sollten, um ihre anderen Eigenschaften zu vergleichen? Ich habe noch nie ein solches Prinzip getroffen.
Yal dc
1
Varianz ist die Standardmethode zum Normalisieren von Verteilungen. Sie haben speziell nach Kurtosis gefragt, und wie gesagt, Kurtosis wird basierend auf dem normalisierten vierten Moment definiert. Wenn Sie also daran interessiert sind, Kurtosis zu vergleichen, sollten Sie Verteilungen mit derselben Varianz vergleichen.
mpr
Jetzt verstehe ich. In der Tat hat jede Normalverteilung eine konstante Kurtosis, während ihre Varianz unterschiedlich sein kann. Vielen Dank für die Klarstellung.
Yal dc
0

Es sieht so aus, als ob das OP versucht, eine Verbindung zwischen "Peakedness" und Kurtosis herzustellen, indem es die Schwänze festhält und die Verteilung "Peaked" macht. Es gibt hier eine Auswirkung auf die Kurtosis, aber sie ist so gering, dass es kaum eine Erwähnung wert ist. Hier ist ein Satz, der diese Behauptung stützt.

Satz 1: Betrachten Sie jede Wahrscheinlichkeitsverteilung mit endlichem vierten Moment. Konstruieren Sie eine neue Wahrscheinlichkeitsverteilung, indem Sie die Masse im Bereich ersetzen , die Masse außerhalb von festhalten und den Mittelwert beibehalten und Standardabweichung bei . Dann beträgt die Differenz zwischen den minimalen und maximalen Pearson-Moment-Kurtosis-Werten über alle derartigen Ersetzungen .[μσ,μ+σ][μσ,μ+σ]μ,σ0.25

Kommentar: Der Beweis ist konstruktiv; In dieser Einstellung können Sie die minimalen und maximalen Kurtosis-Ersetzungen identifizieren. Ferner ist 0,25 eine Obergrenze des Kurtosisbereichs, abhängig von der Verteilung. Beispielsweise beträgt bei einer Normalverteilung der gebundene Bereich 0,141 anstelle von 0,25.

Auf der anderen Seite gibt es eine enorme Auswirkung von Schwänzen auf die Kurtosis, wie aus dem folgenden Satz hervorgeht:

Satz 2: Betrachten Sie jede Wahrscheinlichkeitsverteilung mit endlichem vierten Moment. Konstruieren Sie eine neue Wahrscheinlichkeitsverteilung, indem Sie die Masse außerhalb des Bereichs ersetzen , die Masse in festhalten und den Mittelwert und beibehalten Standardabweichung bei . Dann ist die Differenz zwischen den minimalen und maximalen Pearson-Moment-Kurtosis-Werten über alle derartigen Ersetzungen unbegrenzt; dh die neue Verteilung kann so gewählt werden, dass die Kurtosis aribiträr groß ist.[μσ,μ+σ][μσ,μ+σ]μ,σ

Kommentar: Diese beiden Sätze zeigen, dass die Wirkung von Schwänzen auf die Pearson-Moment-Kurtosis unendlich ist, während die Wirkung von "Peakedness" beträgt .0.25

Peter Westfall
quelle