Was genau ist eine Distribution?

16

Ich weiß sehr wenig über Wahrscheinlichkeit und Statistik und möchte lernen. Ich sehe das Wort "Verteilung", das überall in verschiedenen Zusammenhängen verwendet wird.

Beispielsweise hat eine diskrete Zufallsvariable eine "Wahrscheinlichkeitsverteilung". Ich weiß was das ist. Eine stetige Zufallsvariable hat eine Wahrscheinlichkeitsdichtefunktion. Für ist das Integral von bis der Wahrscheinlichkeitsdichtefunktion die bei bewertete kumulative Verteilungsfunktion . - x xxRxx

Und anscheinend ist "Verteilungsfunktion" gleichbedeutend mit "kumulativer Verteilungsfunktion", zumindest wenn es sich um kontinuierliche Zufallsvariablen handelt (Frage: Sind sie immer Synonyme?).

Dann gibt es viele berühmte Distributionen. Verteilung Verteilung usw. Aber was genau ist eine Verteilung? Ist es die kumulative Verteilungsfunktion einer Zufallsvariablen? Oder die Wahrscheinlichkeitsdichtefunktion einer Zufallsvariablen?& khgr; 2 & Ggr; & Ggr; & Ggr;Γχ2ΓΓΓ

Aber dann scheint eine Häufigkeitsverteilung eines endlichen Datensatzes ein Histogramm zu sein.

Um es kurz zu machen: Wie lautet in Wahrscheinlichkeit und Statistik die Definition des Wortes "Verteilung"?

Ich kenne die Definition der Verteilung in der Mathematik (ein Element des dualen Raums der Sammlung von Testfunktionen, die mit der induktiven Grenztopologie ausgestattet sind), aber nicht Wahrscheinlichkeit und Statistik.

danzibr
quelle
1
Der entsprechende Wikipedia-Artikel scheint eine anständige Einführung in das Thema zu sein.
Aleksandr Blekh
1
Streng genommen sollten "Distribution" und "cdf" als Synonyme angesehen werden, aber "Distribution" wird oft in einem viel lockeren Sinn verwendet und wird oft verwendet, um sich tatsächlich auf eine Dichte / PMF zu beziehen.
Glen_b -Reinstate Monica
3
Ihr Verständnis einer Verteilung kommt dem der Wahrscheinlichkeit ziemlich nahe; Der Hauptunterschied besteht darin, dass diejenigen, die wahrscheinlich sind, einige zusätzliche Eigenschaften haben (positiv zu sein und zu einer Einheit normalisiert zu sein). Die Verbindung besteht darin, dass Ihre Definition eine Verteilung in Bezug auf den zugeordneten Erwartungsoperator erstellt. Es gibt auch einen (schweren) Missbrauch der in der Statistik vorherrschenden Sprache, der eine parametrisierte Verteilungsfamilie auch als "Verteilung" bezeichnet. Schließlich bestimmt jeder endliche Datensatz eine Verteilung, die durch Stichproben daraus erhalten wird, seine "empirische Verteilung".
whuber
@whuber Das hilft vor allem dank des Sprachmissbrauchs. Es wäre, als würde man das unbestimmte Integral einer Funktion aufrufen ... eine Funktion.
Tanzibr
Eine ähnliche Frage mit guten Antworten: stats.stackexchange.com/questions/210403/…
kjetil b halvorsen

Antworten:

7

Das Folgende gilt für bewertete Zufallsvariablen. Die Erweiterung auf andere Räume ist bei Interesse unkompliziert. Ich würde argumentieren, dass die folgende etwas allgemeinere Definition intuitiver ist als die getrennte Betrachtung von Dichte-, Massen- und kumulativen Verteilungsfunktionen.R

Ich füge einige mathematische / probabilistische Begriffe in den Text ein, um ihn zu korrigieren. Wenn man mit diesen Begriffen nicht vertraut ist, kann man die Intuition genauso gut erfassen, wenn man nur an "Borel - Mengen" als "jede Teilmenge von , an die ich denken kann" und an die Zufallsvariable als numerisches Ergebnis eines Experiments mit a denkt zugehörige Wahrscheinlichkeit.R


Sei ein Wahrscheinlichkeitsraum und X ( ω ) eine R - bewertete Zufallsvariable in diesem Raum.(Ω,F,P)X(ω)R

Die Mengenfunktion , wobei A eine Borelmenge ist, wird die Verteilung von X genannt .Q(A):=P(ωΩ:X(ω)A)AX

In Worten, die Verteilung gibt Ihnen (grob gesagt) für jede Teilmenge von die Wahrscheinlichkeit an, dass X einen Wert in dieser Menge annimmt. Man kann beweisen, dass Q vollständig durch die Funktion F ( x ) bestimmt ist : = P ( X x ) und umgekehrt. Um dies zu tun - und ich überspringe die Details hier - konstruiere ein Maß für die Borel-Mengen, das allen Mengen ( - , x ) die Wahrscheinlichkeit F ( x ) zuweist , und argumentiere, dass dieses endliche Maß mit Q für a übereinstimmtRXQF(x):=P(Xx)F(x)(,x)Q System zur Erzeugung der Borel σ - Algebra.πσ

Wenn es so kommt, dass geschrieben werden kann als Q ( A ) = A f ( x ) d x, dann ist f eine Dichtefunktion für Q und Sie können sehen, obwohl diese Dichte nicht eindeutig bestimmt ist (Änderungen berücksichtigen) Sätze von Lebesgue messen Null), ist es sinnvoll, auch von f als der Verteilung von X zu sprechen . Gewöhnlich aber wir nennen es die Wahrscheinlichkeitsdichtefunktion von X .Q(A)Q(A)=Af(x)dxfQfXX

In ähnlicher Weise ist es sinnvoll, von f zu sprechen , wenn folgendermaßen geschrieben werden kann: Q ( A ) = i A { ... , - 1 , 0 , 1 , ... } f ( i ) als die Verteilung von X, obwohl wir es normalerweise die Wahrscheinlichkeitsmassenfunktion nennen.Q(A)Q(A)=iA{,1,0,1,}f(i)fX

Wenn Sie also so etwas wie " folgt einer gleichmäßigen Verteilung auf [ 0 , 1 ] " lesen , bedeutet dies einfach, dass die Funktion Q ( A ) , die Ihnen die Wahrscheinlichkeit angibt, dass X in bestimmten Mengen Werte annimmt, durch das gekennzeichnet ist Wahrscheinlichkeitsdichtefunktion f ( x ) = I [ 0 , 1 ] oder die kumulative Verteilungsfunktion F ( x ) = x - f ( t )X[0,1]Q(A)Xf(x)=I[0,1] .F(x)=xf(t)dt

Eine letzte Anmerkung zu dem Fall, dass keine Zufallsvariable erwähnt wird, sondern nur eine Verteilung. Man kann beweisen, dass bei gegebener Verteilungsfunktion (oder einer Masse-, Dichte- oder kumulativen Verteilungsfunktion) ein Wahrscheinlichkeitsraum mit einer Zufallsvariablen existiert, die diese Verteilung hat. Somit gibt es im Wesentlichen keinen Unterschied, wenn man von einer Verteilung oder einer Zufallsvariablen mit dieser Verteilung spricht. Es ist nur eine Frage des eigenen Fokus.

ekvall
quelle
3

Sei ein Wahrscheinlichkeitsraum, sei ( X , B ) ein messbarer Raum und sei X : Ω X eine messbare Funktion, was bedeutet, dass X - 1 ( B ) = { ω : X ( ω ) B } F für jedes B B . Die Verteilung von X ist das Wahrscheinlichkeitsmaß μ(Ω,F,P)(X,B)X:ΩXX1(B)={ω:X(ω)B}FBB X über ( X , B ) definiert durch μ X ( B ) = P ( X B ) . Wenn X = R und B das Borel-Sigma-Feld ist, bezeichnen wir die Funktion X als zufällige "Variable".μX(X,B)μX(B)=P(XB)X=RBX

Zen
quelle
1
muss für Leute mit wenig Wissen über Wahrscheinlichkeit und Statistik sehr klar sein :)
Alexey Grigorev
3
Nun, das OP scheint fortgeschrittenes mathematisches Material zu kennen, wie "Element des dualen Raums der Sammlung von Testfunktionen, die mit der induktiven Grenztopologie ausgestattet sind". Überprüfen Sie das Ende seiner Frage.
Zen
2
Es war in der Tat eine gute Antwort für mich. Ich musste die Definition eines Wahrscheinlichkeitsraums überprüfen, aber für eine Person mit mathematischem Hintergrund war es klar. Ich habe die Prägnanz der Antwort geschätzt und sie nur aufgrund der Details in der anderen Antwort nicht akzeptiert.
Tanzibr
1

Die Fragen und Antworten scheinen sich bisher auf theoretische Verteilungen konzentriert zu haben. Empirische Verteilungen ermöglichen ein intuitiveres Verständnis von Verteilungen.

Beispiel

Während eines Klassenturniers im Springseil beobachten wir alle Kinder in einem Klassenspringseil. Das erste Kind kann zweimal springen, das zweite viermal, das nächste fünfzehnmal usw. Wir zeichnen die Anzahl der Sprünge auf. Fünf der Kinder sind jeweils acht Mal gesprungen, aber nur eines der Kinder ist zweimal gesprungen. Wir sagen, dass achtmaliges Springen anders verteilt ist als zweimaliges Springen.

Eine ostensive Definition für eine beobachtete Verteilung ist die Häufigkeit des Auftretens für jeden beobachteten Wert einer Variablen.

In der Inferenzstatistik versuchen wir dann, theoretische Verteilungen an die beobachteten Verteilungen anzupassen, weil wir mit den Annahmen der theoretischen Verteilungen arbeiten möchten. Sie können eine ähnliche Definition für theoretische Verteilungen erreichen, indem Sie "beobachtet" durch "beobachtbar" oder genauer gesagt "erwartet" ersetzen.

noumenal
quelle