Die Betaverteilung wird unter zwei Parametern angezeigt (oder hier )
f ( x ) ≤ x α ( 1 - x ) β
oder derjenige, der häufiger verwendet wird
f ( x ) ≤ x α - 1 ( 1 - x ) β - 1
Aber warum steht in der zweiten Formel genau " "?- 1
Die erste Formulierung scheint intuitiv direkter mit der Binomialverteilung zu korrespondieren
g ( k ) ≤ p k ( 1 - p ) n - k
aber "gesehen" aus der Perspektive desp
Warum genau hat die zweite Form an Popularität gewonnen und was ist das Grundprinzip dahinter? Welche Konsequenzen hat die Verwendung einer der Parametrisierungen (z. B. für die Verbindung mit der Binomialverteilung)?
Es wäre großartig, wenn jemand zusätzlich die Ursprünge einer solchen Wahl und die anfänglichen Argumente dafür nennen könnte, aber das ist für mich keine Notwendigkeit.
Antworten:
Dies ist eine Geschichte über Freiheitsgrade und statistische Parameter und warum es schön ist, dass die beiden eine direkte einfache Verbindung haben.
Historisch gesehen tauchten die " " -Begriffe in Eulers Studien zur Beta-Funktion auf. Er benutzte diese Parametrisierung bis 1763 und Adrien-Marie Legendre auch: Ihre Verwendung begründete die nachfolgende mathematische Konvention. Diese Arbeit datiert alle bekannten statistischen Anwendungen vor.- 1−1
Die moderne mathematische Theorie liefert durch die Fülle von Anwendungen in der Analyse, der Zahlentheorie und der Geometrie zahlreiche Hinweise darauf, dass die " " -Terme tatsächlich eine Bedeutung haben. Einige dieser Gründe habe ich in den Kommentaren zur Frage skizziert.- 1−1
Interessanter ist, was die "richtige" statistische Parametrisierung sein sollte. Das ist nicht ganz so klar und muss auch nicht mit der mathematischen Konvention übereinstimmen. Es gibt ein riesiges Netz häufig verwendeter, bekannter, miteinander verbundener Familien von Wahrscheinlichkeitsverteilungen. Daher implizieren die Konventionen, die zum Benennen (dh Parametrisieren) einer Familie verwendet werden, normalerweise verwandte Konventionen zum Benennen verwandter Familien. Ändern Sie eine Parametrierung und Sie möchten sie alle ändern. Wir könnten diese Beziehungen daher auf Hinweise untersuchen.
Nur wenige Menschen stimmen nicht darin überein, dass die wichtigsten Verbreitungsfamilien aus der Familie Normal stammen. Es sei daran erinnert, dass eine Zufallsvariable als "normalverteilt" bezeichnet wird, wenn eine Wahrscheinlichkeitsdichte proportional zu . Bei und soll eine Standardnormalverteilung haben .X ( X - μ ) / σ f ( x ) exp ( - x 2 / 2 ) σ = 1 μ = 0 XX (X−μ)/σ f(x) exp(−x2/2) σ=1 μ=0 X
Viele Datensätze werden mit relativ einfachen Statistiken untersucht, bei denen rationale Kombinationen der Daten und niedrige Potenzen (typischerweise Quadrate) verwendet werden. Wenn diese Daten als Zufallsstichproben aus einer Normalverteilung modelliert werden - so dass jedes als Realisierung einer Normalvariablen , haben alle eine gemeinsame Verteilung und sind unabhängig -, werden die Verteilungen dieser Statistiken durch bestimmt die Normalverteilung. Die in der Praxis am häufigsten auftretenden sindx 1 , x 2 , … , x n x i X i X ix1,x2,…,xn xi Xi Xi
t ν t ν = n - 1 t = ˉ Xtν , die Student- Verteilungt mit "Freiheitsgraden". Dies ist die Verteilung der Statistik wobei den Mittelwert der Daten und modelliert ist der Standardfehler des Mittelwerts. Die Division durch zeigt , dass muß oder größer ist , wo eine ganze Zahl istν=n−1 se ( X ) ˉ X =(X1+X2+⋯+Xn)/nse(X)=(1/√
χ 2 ν χ 2 ν ν χ 2 1 / ν χ 2χ2ν , die (Chi-Quadrat) -Verteilungχ2 mit "Freiheitsgraden" (df). Dies ist die Verteilung der Quadratsumme von unabhängigen Standard-Normalvariablen. Die Verteilung des Mittelwerts der Quadrate dieser Variablen wird daher eine Verteilung sein, die mit skaliert ist : Ich werde dies als eine "normalisierte" Verteilung bezeichnen.ν ν χ2 1/ν χ2
F ν 1 , ν 2 F ( ν 1 , ν 2 ) χ 2 ν 1 ν 2Fν1,ν2 , die Verhältnisverteilung mit ParameternF (ν1,ν2) ist das Verhältnis zweier unabhängiger normalisierter Verteilungen mit Freiheitsgraden und .χ2 ν1 ν2
Mathematische Berechnungen zeigen, dass alle drei Verteilungen Dichten haben. Wichtig ist, dass die Dichte der Verteilung proportional zum Integranden in Eulers integraler Definition der Gamma ( ) -Funktion ist. Vergleichen wir sie:χ 2 ν Γχ2ν Γ
f ≤ 2 ν ( 2 x ) ≤ x ν / 2 - 1 e - x ;f Γ ( ν ) ( x ) ∝ x ν - 1 e - x .
Dies zeigt, dass zweimal eine Variable eine Gamma-Verteilung mit dem Parameter . Der Faktor der Hälfte ist lästig genug, aber subtrahieren würde die Beziehung viel schlimmer machen. Dies liefert bereits eine überzeugende Antwort auf die Frage: Wenn der Parameter einer Verteilung die Anzahl der quadrierten Normalvariablen zählen soll, die sie erzeugen (bis zu einem Faktor von ), dann der Exponent in seiner Dichte Funktion muss eine weniger als die Hälfte dieser Anzahl sein. χ 2 & ngr; & ngr; / 2 1 χ 2 1 / 2χ2ν ν/2 1 χ2 1/2
Warum ist der Faktor weniger störend als eine Differenz von ? Der Grund ist, dass der Faktor konsistent bleibt, wenn wir Dinge addieren. Wenn die Summe der Quadrate von unabhängigen Standardnormalen proportional zu einer Gammaverteilung mit dem Parameter (mal einem Faktor) ist, dann ist die Summe der Quadrate von unabhängigen Standardnormalen proportional zu einer Gammaverteilung mit dem Parameter (mal dem gleichen Faktor). Daher ist die Summe der Quadrate aller Variablen proportional zu einer Gamma-Verteilung mit dem Parameter (immer noch der gleiche Faktor). 1 / 2 1 n n m m n + m m + n1/2 1 n n m m n+m m+n Die Tatsache, dass das Hinzufügen der Parameter das Hinzufügen der Zählungen so genau nachahmt, ist sehr hilfreich.
Wenn wir jedoch dieses nervige " " aus den mathematischen Formeln entfernen würden, würden diese netten Beziehungen komplizierter. Wenn wir beispielsweise die Parametrisierung der Gamma-Verteilungen so ändern, dass sie sich auf die tatsächliche Potenz von in der Formel bezieht , wird eine Verteilung mit einer "Gamma " -Verteilung in Beziehung gesetzt (seit der Potenz von in) sein PDF ist ), dann müsste die Summe von drei Verteilungen als "Gamma " -Verteilung bezeichnet werden. Kurz gesagt, die enge additive Beziehung zwischen Freiheitsgraden und dem Parameter in Gammaverteilungen würde durch Entfernen von verloren gehen- 1 x ≤ 2 1 ( 0 ) x 1 - 1 = 0 ≤ 2 1 ( 2 ) - 1−1 x χ21 (0) x 1−1=0 χ21 (2) −1 aus der Formel und absorbiert es in den Parameter.
In ähnlicher Weise ist die Wahrscheinlichkeitsfunktion einer Verhältnis-Verteilung eng mit Beta-Verteilungen verwandt. In der Tat hat, wenn eine Verhältnisverteilung hat, die Verteilung von eine Beta- Verteilung . Seine Dichtefunktion ist proportional zuF Y F Z = ν 1 Y / ( ν 1 Y + ν 2 ) ( ν 1 / 2 , ν 2 / 2 )F Y F Z=ν1Y/(ν1Y+ν2) (ν1/2,ν2/2)
f Z ( z ) α z ν 1 / 2 - 1 ( 1 - z ) ν 2 / 2 - 1 .
Außerdem hat das Quadrat einer Student- Verteilung mit df eine Verhältnisverteilung mit Parametern . Einmal mehr zeigt sich, dass die Beibehaltung der konventionellen Parametrisierung eine klare Beziehung zu den zugrunde liegenden Zählwerten aufrechterhält , die zu den Freiheitsgraden beitragen.t ν F ( 1 , ν )t ν F (1,ν)
Aus statistischer Sicht wäre es daher am natürlichsten und einfachsten, eine Variation der herkömmlichen mathematischen Parametrisierungen von und Beta - Verteilungen zu verwenden: Wir sollten es vorziehen, eine Verteilung als -Verteilung "und die Beta -Verteilung sollten als" Beta -Verteilung "bezeichnet werden. Tatsächlich haben wir das bereits getan: Genau deshalb verwenden wir weiterhin die Bezeichnungen "Chi-Quadrat" und " Verhältnis" anstelle von "Gamma" und "Beta". Unabhängig davon möchten wir auf keinen Fall das " " entfernenΓ Γ ( α ) Γ ( 2 α ) ( α , β ) ( 2 α , 2 β ) F - 1Γ Γ(α) Γ(2α) (α,β) (2α,2β) F −1 "Ausdrücke, die in den mathematischen Formeln für ihre Dichten erscheinen. Wenn wir das tun, würden wir die direkte Verbindung zwischen den Parametern in den Dichten und den Datenzahlen, mit denen sie verknüpft sind , verlieren : Wir wären immer um eins versetzt.
quelle
Die Notation führt Sie in die Irre. Es gibt ein „versteckten “ in der Formel , weil in , und größer sein muss als (der zweite Link , den Sie in Ihrer Frage zur Verfügung gestellt , sagt dies ausdrücklich). Die 's und ' s in den beiden Formeln sind nicht die gleichen Parameter. Sie haben unterschiedliche Bereiche: in , und in , . Diese Bereiche für und−1−1 (1)(1) (1)(1) αα ββ −1−1 αα ββ (1)(1) α,β>−1α,β>−1 (2)(2) α,β>0α,β>0 αα ββ sind notwendig, um sicherzustellen, dass das Integral der Dichte nicht divergiert. Um dies zu sehen, betrachtet in den Fall (oder weniger) und , dann versuchen zu integrieren , die (Kern der) Dichte zwischen und . Versuchen Sie das Gleiche in für (oder weniger) und .(1)(1) α=−1α=−1 β=0β=0 00 11 (2)(2) α=0α=0 β=1β=1
quelle
Für mich hängt die Existenz von -1 im Exponenten mit der Entwicklung der Gamma-Funktion zusammen. Die Motivation der Gamma-Funktion besteht darin, eine glatte Kurve zu finden, um die Punkte eines Fakultäts x zu verbinden ! . Da es nicht möglich ist x zu berechnen ! direkt, wenn x nicht ganzzahlig ist, bestand die Idee darin, eine Funktion für jedes x ≥ 0 zu finden , die die durch die Fakultät definierte Wiederholungsrelation erfüllt, nämlich
f ( 1 ) = 1f ( x + 1 ) = x ≤ f ( x ) .
Die Lösung bestand in der Konvergenz eines Integrals. Für die Funktion definiert als
f ( x + 1 ) = ∫ ∞ 0 t x e - x d t ,
Die Teilintegration bietet Folgendes:
f ( x + 1 )= ∫ ∞ 0 t x e - x d t= [ - t x e - x ] ∞ 0 + ∫ ∞ 0 x ⋅ t x - 1 e - x d t= Lim x → ∞ ( - t x e - x ) - 0 ⋅ e - 0 + x ⋅ ∫ ∞ 0 t x - 1 e - x d t= 0 - 0 + x ⋅ ∫ ∞ 0 t x - 1 e - x d t= x ≤ f ( x ) .
Die obige Funktion erfüllt diese Eigenschaft, und das -1 im Exponenten ergibt sich aus der Prozedur der Integration nach Teilen. Siehe den Wikipedia-Artikel https://en.wikipedia.org/wiki/Gamma_function .
Edit: Ich entschuldige mich, wenn mein Beitrag nicht vollständig klar ist; Ich versuche nur darauf hinzuweisen, dass in meiner Idee die Existenz von -1 in der Beta-Verteilung durch die Verallgemeinerung der Fakultät mittels der Gamma-Funktion zustande kommt. Es gibt zwei Bedingungen: f ( 1 ) = 1 und f ( x + 1 ) = x ≤ f ( x ) . Wir haben Γ ( x ) = ( x - 1 ) ! daher erfüllt es Γ ( x + 1 ) =x ⋅ Γ ( x ) = x ⋅ ( x - 1 ) ! = x ! . Zusätzlich haben wir Γ ( 1 ) = ( 1 - 1 ) ! = 0 ! = 1 . Wie für die BetaVerteilung mit Parameter α , β , Verallgemeinerung des Binomialkoeffizient ist Γ ( α + β )Γ ( α ) ⋅ Γ ( β ) =(α+β-1)!( α - 1 ) ! ⋅ ( β - 1 ) ! . Dort haben wir für beide Parameter den Nenner -1.
quelle