Wie kann ich analytisch nachweisen, dass eine zufällige Aufteilung eines Betrags zu einer exponentiellen Verteilung (von z. B. Einkommen und Vermögen) führt?

36

In diesem aktuellen Artikel in SCIENCE wird Folgendes vorgeschlagen:

Angenommen, Sie teilen 500 Millionen Einkommen zufällig auf 10.000 Personen auf. Es gibt nur einen Weg, um jedem 50.000 gleiche Anteile zu geben. Wenn Sie also Ihre Einnahmen nach dem Zufallsprinzip streichen, ist Gleichstellung äußerst unwahrscheinlich. Aber es gibt unzählige Möglichkeiten, ein paar Menschen viel Geld und vielen Menschen wenig oder gar nichts zu geben. Angesichts aller Möglichkeiten, wie Sie das Einkommen aufteilen können, führen die meisten von ihnen zu einer exponentiellen Einkommensverteilung.

Ich habe dies mit dem folgenden R-Code getan, der das Ergebnis zu bestätigen scheint:

library(MASS)

w <- 500000000 #wealth
p <- 10000 #people

d <- diff(c(0,sort(runif(p-1,max=w)),w)) #wealth-distribution
h <- hist(d, col="red", main="Exponential decline", freq = FALSE, breaks = 45, xlim = c(0, quantile(d, 0.99)))

fit <- fitdistr(d,"exponential")
curve(dexp(x, rate = fit$estimate), col = "black", type="p", pch=16, add = TRUE)

Bildbeschreibung hier eingeben

Meine Frage
Wie kann ich analytisch beweisen, dass die resultierende Verteilung tatsächlich exponentiell ist?

Nachtrag
Vielen Dank für Ihre Antworten und Kommentare. Ich habe über das Problem nachgedacht und die folgenden intuitiven Überlegungen angestellt. Grundsätzlich passiert Folgendes (Achtung: Vereinfachung voraus): Man geht den Betrag entlang und wirft eine (voreingenommene) Münze. Jedes Mal, wenn Sie zB Köpfe bekommen, teilen Sie die Menge. Sie verteilen die resultierenden Partitionen. Im diskreten Fall folgt der Münzwurf einer Binomialverteilung, die Partitionen sind geometrisch verteilt. Die kontinuierlichen Analoga sind die Poissonverteilung und die Exponentialverteilung! (Durch die gleiche Überlegung wird auch intuitiv klar, warum die geometrische und die exponentielle Verteilung die Eigenschaft der Erinnerungslosigkeit haben - weil die Münze auch kein Gedächtnis hat).

vonjd
quelle
3
Wenn Sie das Geld einzeln ausgeben, gibt es viele Möglichkeiten, es gleichmäßig zu verteilen, und viele weitere Möglichkeiten, es nahezu gleichmäßig zu verteilen (z. B. eine fast normale Verteilung mit einem Mittelwert von und einer Standardabweichung nahe 224 )50000224
Henry
@Henry: Könnten Sie diesen Vorgang bitte etwas genauer beschreiben? Vor allem, was meinst du mit "eins nach dem anderen"? Vielleicht könnten Sie sogar Ihren Code bereitstellen. Vielen Dank.
Vonjd
vonjd: Beginnen Sie mit 500 Millionen Münzen. Ordnen Sie jede Münze unabhängig und zufällig mit gleicher Wahrscheinlichkeit zwischen 10 000 Personen zu. Addieren Sie die Anzahl der Münzen, die jeder Einzelne erhält.
Henry
@Henry: Die ursprüngliche Aussage war, dass die meisten Arten der Verteilung der Geldrendite eine exponentielle Verteilung sind. Die Art und Weise der Verteilung des Bargeldes und der Verteilung der Münzen ist nicht uneinheitlich , da es nur eine Möglichkeit gibt, 500.000.000 USD gleichmäßig auf 10.000 Personen zu verteilen (jeweils 50.000 USD ), aber es gibt 500.000.000! / ((50.000!) ^ 10.000) Möglichkeiten von 50.000 Münzen an jeweils 10.000 Menschen zu verteilen.
Supercat
1
@Henry In dem Szenario, das Sie im obersten Kommentar beschrieben haben, wird von Anfang an festgelegt, dass jede Person die gleiche Wahrscheinlichkeit hat, die Münze zu erhalten. Diese Bedingung ordnet der Normalverteilung effektiv ein großes Gewicht zu, anstatt gleichermaßen unterschiedliche Arten der Verteilung der Münzen in Betracht zu ziehen.
Higgs

Antworten:

27

Um das Problem zu vereinfachen, betrachten wir den Fall, in dem die zulässigen Werte des Anteils jeder Person diskret sind, z. B. ganze Zahlen. Ebenso kann man sich vorstellen, die "Einkommensachse" in gleichmßig beabstandete Intervalle zu unterteilen und alle Werte zu approximieren, die bis zum Mittelpunkt in ein bestimmtes Intervall fallen.

Bei Angabe des Gesamteinkommens als , des s- ten zulässigen Werts als x s , der Gesamtzahl der Personen als N und schließlich der Anzahl der Personen mit Anteilen von x s als n s sollten die folgenden Bedingungen erfüllt sein: C 1 ( { n s } ) & Sigma; s n s - N = 0 , und C 2 ( { n s } ) & Sigma; s n sXsxsNxsns

C1({ns})snsN=0,
C2({ns})snsxsX=0.

Beachten Sie, dass viele verschiedene Möglichkeiten zum Teilen der Freigabe dieselbe Verteilung darstellen können. Wenn wir Dividieren betrachten zum Beispiel $ 4 zwischen zwei Personen, so dass $ 3 zu Alice und $ 1 an Bob und umgekehrt zu identischen Verteilungen führen. Da es sich um eine zufällige Aufteilung handelt, besteht die beste Chance, dass die Aufteilung mit der maximalen Anzahl entsprechender Aufteilungsmethoden erfolgt.

Um eine solche Verteilung zu erhalten, muss man W ( { n s } ) N maximieren ! Unter den beiden Bedingungen oben angegeben. Die Methode der Lagrange-Multiplikatoren ist hierfür ein kanonischer Ansatz. Darüber hinaus kann man wählen, mitlnWanstatt mitWselbst zu arbeiten, da "ln" eine monoton ansteigende Funktion ist. Das heißt, lnW

W({ns})N!sns!,
lnWWln wobeiλ1,2sind LagrangeMultiplikatoren. Beachtendass nachStirling Formel, lnn! nlnn-n, was zu dlnn führt!
lnWns=λ1C1ns+λ2C1ns=λ1+λ2xs,
λ1,2
lnn!nlnn-n,
So lnW
dlnn!dnlnn.
Daraus folgt, dass nsexp(-λ1-λ2xs) ist, was eine Exponentialverteilung ist. Man kann die Werte von Lagrange-Multiplikatoren unter Verwendung der Nebenbedingungen erhalten. Ab der ersten Bedingung ist N
lnWns-lnns.
nsexp(-λ1-λ2xs),
wobeiΔxder Abstand zwischen zulässigen Werten ist. Ebenso ist X
N=snssexp(-λ1-λ2xs)1Δx0exp(-λ1-λ2x)dx=1λ2Δxexp(-λ1),
Δx Wir haben also exp(-λ1)=N2Δx
X=snsxssxsexp(-λ1-λ2xs)1Δx0xexp(-λ1-λ2x)dx=1λ22Δxexp(-λ1).
& lgr;2=N
exp(-λ1)=N2ΔxX,
Dass dies tatsächlich ein Maximum und nicht ein Minimum oder ein Sattelpunkt ist, lässt sich aus dem Hessischen vonlnW-λ1C1-λ2C2ersehen. DaC1,2innslinear sind, ist es dasselbe wie das vonlnW: 2 lnW
λ2=NX.
lnW-λ1C1-λ2C2C1,2nslnW und 2lnW
2lnWns2=-1ns<0,
Daher ist der Hessische konkav, und was wir gefunden haben, ist tatsächlich ein Maximum.
2lnWnsnr=0(sr).

W({ns})W({ns})ns1ns gegen Null tendiert, ist diese Bedingung immer zum Scheitern verurteilt.

N1023

Higgs
quelle
1
Danke, bitte schauen Sie sich Glen_bs Antwort an. Stimmt das mit Ihrer Antwort überein?
Vonjd
2
@vonjd Gern geschehen! Ich denke, dass seine Antwort mit meiner übereinstimmt. Mir scheint, dass er eine Analogie zum Poisson-Prozess in folgendem Sinne erstellt: Betrachten Sie einen Poisson-Prozess mit dem "durchschnittlichen Zeitintervall" von 50.000 und zählen Sie 10.000 Ereignisse. Dann beträgt das "Gesamtzeitintervall" im Durchschnitt 50.000 x 10.000 = 500 Millionen.
Higgs
2
@vonjd Ich habe meine Antwort aktualisiert. Insbesondere habe ich die Diskussion unter der Bedingung hinzugefügt, dass die Verteilung, die wir normalerweise beobachten, der wahrscheinlichsten Verteilung nahekommt.
Higgs
2
Wenn Sie diskrete Fälle betrachten, wäre es hilfreich zu beobachten, dass T-Dinge unter N Personen aufgeteilt werden können ((N + T-1) wählen Sie (N-1)) Wege? Wenn die erste Person f Dinge erhält, können Sie den Rest auf folgende Arten verteilen: ((N + Tf-2) wählen Sie (N-2)); die Summe davon für Werte von f von 0 bis N ist die Gesamtzahl der Möglichkeiten, alles zu verteilen.
Supercat
1
TN,ff(N+T-f-2)(N-2)=(N+T-f-2)!/(N-2)!/(T-f)! (N+T-f-2)!/(T-f)!(T-f)N-2TN-2e-(N-2)f/T
17

In der Tat können Sie beweisen, dass es nicht exponentiell ist, fast trivial:

500500

Es ist jedoch nicht allzu schwer zu erkennen, dass es für Ihr Beispiel mit einheitlicher Lücke nahezu exponentiell sein sollte.

Betrachten Sie einen Poisson-Prozess, bei dem Ereignisse entlang einer Dimension zufällig auftreten. Die Anzahl der Ereignisse pro Einheit des Intervalls weist eine Poisson-Verteilung auf, und die Lücke zwischen den Ereignissen ist exponentiell.

Wenn Sie ein festes Intervall einhalten, werden die Ereignisse in einem Poisson-Prozess, die in dieses Intervall fallen, gleichmäßig im Intervall verteilt. Sehen Sie hier .

[Beachten Sie jedoch, dass Sie, da das Intervall endlich ist, einfach keine größeren Lücken als die Intervalllänge beobachten können und Lücken, die fast so groß sind, unwahrscheinlich sind (z. B. in einem Einheitsintervall - wenn Sie Lücken von 0,04 und 7 sehen) 0,01, die nächste Lücke, die Sie sehen, kann nicht größer als 0,95 sein.]

n

nn+1n nicht zu klein ist.

Insbesondere hat jede Lücke, die in dem Intervall beginnt, das über dem Poisson-Prozess liegt, die Chance, "zensiert" zu werden (effektiv kürzer geschnitten als es sonst gewesen wäre), indem sie in das Ende des Intervalls läuft.

Bildbeschreibung hier eingeben

Längere Lücken tun dies mit größerer Wahrscheinlichkeit als kürzere, und mehr Lücken im Intervall bedeuten, dass die durchschnittliche Lückenlänge verringert werden muss - mehr kurze Lücken. Diese Tendenz, abgeschnitten zu werden, wirkt sich eher auf die Verteilung längerer als kurzer Lücken aus (und es ist unwahrscheinlich, dass eine auf das Intervall beschränkte Lücke die Länge des Intervalls überschreitet - daher sollte sich die Verteilung der Lückengröße gleichmäßig verringern auf Null bei der Größe des gesamten Intervalls).

Im Diagramm wurde ein längeres Intervall am Ende verkürzt, und ein relativ kürzeres Intervall am Anfang ist ebenfalls kürzer. Diese Effekte lenken uns von der Exponentialität ab.

n einheitlichen Ordnungsstatistiken ist Beta (1, n).)

n bei den kleinen Werten exponentiell und bei den größeren Werten weniger exponentiell ist, da die Dichte bei den größten Werten schneller abfällt.

Hier ist eine Simulation der Lückenverteilung für n = 2:

Bildbeschreibung hier eingeben

Nicht sehr exponentiell.

n1n+1

Bildbeschreibung hier eingeben

exp(-21x)

Bildbeschreibung hier eingeben

n=10000

Glen_b
quelle
2
Also nur um dich richtig zu verstehen: Du sagst, dass es nicht exponentiell ist?!? Higgs beweist, dass es exponentiell ist!
Vonjd
3
Lassen Sie mich meine Antwort zitieren: (i) "Sie können beweisen, dass es nicht tatsächlich exponentiell ist", ABER (ii) für die von Ihnen betrachteten gleichmäßigen Lücken "... muss es nahe exponentiell sein" ... ", solange n nicht ist zu klein." ... Was ist unklar?
Glen_b
5
nsexp(-λ1-λ2xs)
2
Ich denke, dass diese Antwort eine großartige Möglichkeit ist, das Problem zu betrachten, und mehr Gegenstimmen verdient. Ich befürchte jedoch, dass die Funktionsweise der Analogie zum Poisson-Prozess (z. B. was "Zeit" entspricht) unklar erscheint. Würdest du gerne weitere Einzelheiten mitteilen?
Higgs
3
@higgsss Ich habe etwas umformuliert (Verweis auf Zeit entfernt), ein kleines Detail und einen Link hinzugefügt. Ich werde später vielleicht noch etwas mehr darüber diskutieren. Wenn Sie spezielle Vorschläge haben, wäre ich daran interessiert, meine Antwort weiter zu verbessern.
Glen_b
8

Nehmen wir an, das Geld ist unendlich teilbar, damit wir mit reellen Zahlen und nicht mit ganzen Zahlen umgehen können.

t=500000000n=10000

p(x)=n-1t(1-xt)n-2
0xt
P(Xx)=1-(1-xt)n-1.

Xtt-Xnn-1n=2n=1

nnt(1-ym)mexp(-y)m

Henry
quelle
8

Zu sagen: "Angenommen, Sie teilen 500 Millionen Einkommen zufällig auf 10.000 Personen auf" ist nicht spezifisch genug, um die Frage zu beantworten. Es gibt viele verschiedene Zufallsverfahren, die verwendet werden könnten, um einer festen Anzahl von Personen einen festen Geldbetrag zuzuweisen, und jedes hat seine eigenen Merkmale für die resultierende Verteilung. Hier sind drei generative Prozesse, an die ich denken könnte, und die Verteilung des Reichtums, die jeder schafft.

library(MASS)

w <- 500000000 #wealth
p <- 10000 #people

Methode 1, gepostet von OP:

Wählen Sie 'p'-Zahlen aus [0, w] gleichmäßig nach dem Zufallsprinzip. Sortieren Sie diese. Fügen Sie '0' an die Vorderseite an. Verteilen Sie Dollarbeträge, die durch die Unterschiede zwischen aufeinanderfolgenden Elementen in dieser Liste dargestellt werden.

d <- diff(c(0,sort(runif(p-1,max=w)),w)) #wealth-distribution
h <- hist(d, col="red", main="Exponential decline", freq = FALSE, breaks = 45,
     xlim = c(0, quantile(d, 0.99)))
fit <- fitdistr(d,"exponential")
curve(dexp(x, rate = fit$estimate), col = "black", type="p", 
      pch=16, add = TRUE)

gleichmäßige Pausen

Methode 2:

Wählen Sie p-Zahlen aus [0, w] gleichmäßig nach dem Zufallsprinzip. Berücksichtigen Sie diese "Gewichte", damit "w" in diesem Stadium keine Rolle spielt. Normalisieren Sie die Gewichte. Verteilen Sie Dollarbeträge, die durch den Bruchteil von 'w' dargestellt werden, der jedem Gewicht entspricht.

d <- runif(p,max=w) #weigh-distribution
d <- d/sum(d)*w #wealth-distribution
h <- hist(d, col="red", main="pretty uniform", freq = FALSE, breaks = 45, 
          xlim = c(0, quantile(d, 0.99)))

neu skalierte Gewichte

Methode 3:

Beginnen Sie mit 'p' 0s. W-mal, addiere 1 zu einem von ihnen, die gleichmäßig zufällig ausgewählt wurden.

d <- rep(0, p)
for( i in 1:5000000){ ## for-loops in R are terrible, but this gives the idea.
    k <- floor(runif(1, max=p)) + 1    
    d[k] = (d[k] + 1)
}
h <- hist(d, col="red", main="kinda normalish?", freq = FALSE, breaks = 45,
          xlim = c(0, quantile(d, 0.99)))

iterative Dollar

Todd Johnson
quelle
4

Lassen Sie mich etwas zu Ihrem Nachtrag hinzufügen.

p(x)=N-1X(1-xX)N-2,
NX

Mm

p(m)=N-1M+1j=0N-3(1-mM-j)N-2.
MNN

N

Die Durchführung der Fehleranalyse scheint jedoch nicht einfach zu sein, da in diesem Fall unterschiedliche Abtastungen nicht unabhängig voneinander sind. Sie müssen sich zum Gesamtbetrag addieren, und wie viel die erste Person erhält, wirkt sich auf die Wahrscheinlichkeitsverteilung für die zweite Person aus, und so weiter.

Meine vorherige Antwort leidet nicht unter diesem Problem, aber ich denke, es wäre hilfreich zu sehen, wie es in diesem Ansatz gelöst werden kann.

Higgs
quelle
3

Gute theoretische Analyse durch die überstimmten Antworten. Hier ist jedoch meine einfache, empirische Ansicht, warum die Verteilung exponentiell ist.

Wenn Sie das Geld verteilen Zufallsprinzip , sollten Sie es nacheinander tun. Sei S die ursprüngliche Summe.

Für den ersten Mann müssen Sie einen zufälligen Betrag zwischen 0 und S wählen. Daher wählen Sie im Durchschnitt S / 2 und bleiben bei S / 2.

Für den zweiten Mann würden Sie zufällig zwischen 0 und durchschnittlich S / 2 wählen. Im Durchschnitt wählen Sie also S / 4 und bleiben bei S / 4.

Sie würden also im Grunde genommen die Summe jedes Mal in zwei Hälften teilen (statistisch gesehen).

In einem realen Beispiel haben Sie zwar keine kontinuierlich halbierten Werte, dies zeigt jedoch, warum mit einer exponentiellen Verteilung gerechnet werden sollte.

Bogdan Alexandru
quelle
3
Ihr Algorithmus gibt der ersten Person mehr Geld als jeder anderen. Es gibt andere Ansätze, die diese Tendenz nicht aufweisen.
Henry
@Henry Wie würden Sie sonst anfangen, das Geld zu teilen? Sie müssen mit jemandem beginnen. Und wenn Sie dies tun, haben Sie den gesamten Betrag vor sich. Ihm einen zufälligen Bruch zu geben bedeutet buchstäblich, zufällig aus der gesamten Summe auszuwählen. Man kann nicht sagen, dass die Annahme, einen "ersten Mann" zu haben, falsch ist, denn sonst würde derjenige, der das Geld teilt, einfach die Summe durch die Anzahl der Männer dividieren, da er im Voraus weiß, wie viele Menschen es gibt. Das ist nur meine Sichtweise: Wenn Sie sagen, Sie teilen das Geld "zufällig" auf, wird es einfach einen Mann geben, der mehr Geld bekommt
Bogdan Alexandru
Bogdan Alexandru: Mein Algorithmus (eine andere Antwort) hat das Merkmal, dass die Verteilung für jedes Individuum gleich ist, unabhängig davon, ob es zuerst, in der Mitte oder zuletzt ausgewählt wird. Es entspricht auch einer gleichmäßigen Dichte über den Raum, der durch die zugeteilte Gesamtmenge beschränkt ist.
Henry