Gibt es eine numerisch stabile Methode zur Berechnung der Werte einer Beta-Verteilung für Alpha, Beta (z. B. Alpha, Beta> 1000000)?
Eigentlich brauche ich nur ein 99% -Konfidenzintervall um den Modus, wenn das das Problem irgendwie einfacher macht.
Hinzufügen : Es tut mir leid, meine Frage war nicht so klar gestellt, wie ich dachte. Was ich tun möchte, ist Folgendes: Ich habe eine Maschine, die Produkte auf einem Förderband inspiziert. Ein Teil dieser Produkte wird von der Maschine abgelehnt. Wenn der Maschinenbediener nun eine Inspektionseinstellung ändert, möchte ich ihm die geschätzte Ausschussrate und einen Hinweis darauf geben, wie zuverlässig die aktuelle Schätzung ist.
Also dachte ich, ich behandle die tatsächliche Ablehnungsrate als Zufallsvariable X und berechne die Wahrscheinlichkeitsverteilung für diese Zufallsvariable basierend auf der Anzahl der zurückgewiesenen Objekte N und akzeptierten Objekte M. Wenn ich eine einheitliche vorherige Verteilung für X annehme, ist dies a Beta-Verteilung in Abhängigkeit von N und M. Ich kann diese Verteilung entweder direkt dem Benutzer anzeigen oder ein Intervall [l, r] finden, so dass die tatsächliche Ablehnungsrate in diesem Intervall mit p> = 0,99 (unter Verwendung der Shabbychef-Terminologie) liegt, und dieses anzeigen Intervall. Für kleines M, N (dh unmittelbar nach der Parameteränderung) kann ich die Verteilung direkt berechnen und das Intervall [l, r] approximieren. Für großes M, N führt dieser naive Ansatz jedoch zu Unterlauffehlern, da x ^ N * (1-x) ^ M zu klein ist, um als Float mit doppelter Genauigkeit dargestellt zu werden.
Ich denke, meine beste Wette ist es, meine naive Beta-Verteilung für kleine M, N zu verwenden und zu einer Normalverteilung mit demselben Mittelwert und derselben Varianz zu wechseln, sobald M, N einen bestimmten Schwellenwert überschreitet. Ist das sinnvoll?
Antworten:
Eine normale Annäherung funktioniert sehr gut, besonders in den Schwänzen. Verwenden Sie einen Mittelwert von und eine Varianz von . Zum Beispiel erreicht der absolute relative Fehler in der Schwanzwahrscheinlichkeit in einer schwierigen Situation (in der die Schiefe von Belang sein könnte) wie Spitzenwert um und ist weniger als wenn Sie sich befinden mehr als 1 SD vom Mittelwert. (Dies liegt nicht daran, dass Beta so groß ist: Mit sind die absoluten relativen Fehler durchα βα / ( α + β) α=106,α β( α + β)2( 1 + α + β) 0,00026 0,00006 α = β = 10 6 0,0000001α = 106, β= 108 0,00026 0,00006 α = β= 106 0,0000001 .) Somit ist diese Annäherung für im Wesentlichen jeden Zweck, der 99% -Intervalle umfasst, ausgezeichnet.
Beachten Sie angesichts der Änderungen an der Frage, dass man Beta-Integrale nicht durch tatsächliche Integration des Integranden berechnet: Natürlich kommt es zu Unterläufen (obwohl sie nicht wirklich wichtig sind, weil sie nicht wesentlich zum Integral beitragen). . Es gibt viele, viele Möglichkeiten, das Integral zu berechnen oder zu approximieren, wie in Johnson & Kotz (Verteilungen in der Statistik) dokumentiert. Einen Online-Rechner finden Sie unter http://www.danielsoper.com/statcalc/calc37.aspx . Sie brauchen tatsächlich die Umkehrung dieses Integrals. Einige Methoden zur Berechnung der Inversen sind auf der Mathematica-Website unter http://functions.wolfram.com/GammaBetaErf/InverseBetaRegularized/ dokumentiert.. Der Code wird in numerischen Rezepten (www.nr.com) bereitgestellt. Ein wirklich schöner Online-Rechner ist die Wolfram Alpha-Site (www.wolframalpha.com): Geben Sieα = 1000000 , β= 1000001
inverse beta regularized (.005, 1000000, 1000001)
für den linken Endpunkt undinverse beta regularized (.995, 1000000, 1000001)
für den rechten Endpunkt ein ( , 99% Intervall).quelle
Ein kurzes grafisches Experiment legt nahe, dass die Beta-Verteilung einer Normalverteilung sehr ähnlich sieht, wenn sowohl Alpha als auch Beta sehr groß sind. Durch Googeln von "Beta Distribution Limit Normal" fand ich http://nrich.maths.org/discus/messages/117730/143065.html?1200700623 , was einen handwinkenden "Beweis" liefert.
Die Wikipedia-Seite für die Beta-Verteilung gibt den Mittelwert, den Modus (v nahe am Mittelwert für großes Alpha und Beta) und die Varianz an, sodass Sie eine Normalverteilung mit demselben Mittelwert und derselben Varianz verwenden können, um eine Annäherung zu erhalten. Ob es eine ausreichende Annäherung für Ihre Zwecke ist, hängt von Ihren Zwecken ab.
quelle
Ich werde daraus schließen, dass Sie ein Intervall wünschen so dass die Wahrscheinlichkeit, dass eine zufällige Ziehung aus dem Beta-RV erfolgt, im Intervall mit einer Wahrscheinlichkeit von 0,99 liegt, wobei die Bonuspunkte für und im Modus symmetrisch sind. Durch Gaußsche Ungleichung oder die Vysochanskii-Petunin-Ungleichung können Sie Intervalle konstruieren, die das Intervall und ziemlich anständige Näherungen wären. Für hinreichend große , werden Sie numerische Unterlauf Probleme haben in selbst darstellen und als unterschiedliche Zahlen, so dass diese Strecke gut genug sein kann.l r [ l , r ] α , β l r[ l , r ] l r [l,r] α,β l r
quelle
Beispielsweise
erzeugt normalerweise eine Ausgabe wie
dh typische p-Werte liegen bei 0,2.
produziert so etwas wie
mit typischen p-Werten um 0,01
Die R-
qqnorm
Funktion bietet auch eine hilfreiche Visualisierung, die ein sehr geradlinig aussehendes Diagramm für die Log-Odds-Verteilung erzeugt, das die ungefähre Normalität anzeigt. Die Verteilung der Beta-Dsitribute-Variablen erzeugt eine charakteristische Kurve, die die Nicht-Normalität anzeigtDaher ist es sinnvoll, eine Gaußsche Näherung im Log-Odds-Bereich zu verwenden, selbst für stark verzerrte Werte, solange beide über 100 liegen.α,β
quelle