Ich habe ein wenig Probleme, das Konzept und die Ableitung der Wahrscheinlichkeit von Datenkürzungen zu verstehen.
Wenn ich zum Beispiel die Wahrscheinlichkeitsfunktion basierend auf einer Stichprobe aus einer Verteilung finden möchte, aber wenn ich eine Stichprobe aus der Verteilung nehme, beobachte ich die abgeschnittenen Werte (wobei es einen Grenzwert für , dh ein beliebiges wird aufgezeichnet als ):
wobei die Anzahl der Werte . Dann ist die Wahrscheinlichkeit angeblich gegeben durch:
Ich würde mich sehr über eine Erklärung / einen Beweis dafür freuen, warum dies so ist, und vor allem darüber, warum der zweite Faktor so ist, wie er ist. Wenn möglich intuitiv und mathematisch. Vielen Dank im Voraus.
dataset
likelihood
Delvesy
quelle
quelle
Antworten:
Was Sie beschreiben, bedarf einer besonderen Behandlung, es ist nicht das, was wir normalerweise mit "abgeschnittenen Zufallsvariablen" meinen - und was wir normalerweise meinen, ist, dass die Zufallsvariable nicht außerhalb der abgeschnittenen Unterstützung liegt, was bedeutet, dass es keine Konzentration der Wahrscheinlichkeitsmasse bei gibt der Punkt der Kürzung. Um Fälle zu kontrastieren:
A) "Übliche" Bedeutung eines abgeschnittenen RV[a,b] −∞<a<b<∞ f F
Für jede Verteilung, bei der wir seine Unterstützung abschneiden, müssen wir seine Dichte "korrigieren", damit sie sich zur Einheit integriert, wenn sie über die abgeschnittene Unterstützung integriert wird. Wenn die Variable Unterstützung in , - ∞ < a < b < ∞ hat , dann (pdf f , cdf F )
Da die LHS das Integral über dem abgeschnittenen Träger ist, sehen wir, dass die Dichte des abgeschnittenen rv, genannt , sein mussX~
so dass es sich über [ a , M ] zur Einheit integriert. Der Mittelbegriff im obigen Ausdruck lässt uns diese Situation (zu Recht) als eine Form derKonditionierung betrachten
B) WahrscheinlichkeitsmassenkonzentrationM M
Hier, was Sie in der Frage beschreiben, sind die Dinge anders. Der Punkt konzentriert die gesamte Wahrscheinlichkeitsmasse, die der Unterstützung der Variablen entspricht, die höher als M ist . Dies erzeugt einen Punkt der Diskontinuität in der Dichte und macht sie zu zwei Zweigen
Formlos, ist die zweite „wie ein diskretes rv“ , wobei jeder Punkt in der Wahrscheinlichkeitsmassenfunktion tatsächliche Wahrscheinlichkeiten darstellt. Nehmen wir nun an, wir haben solche iid-Zufallsvariablen und wollen ihre gemeinsame Dichte / Wahrscheinlichkeitsfunktion bilden. Welchen Zweig sollten wir wählen, bevor wir uns die tatsächliche Stichprobe ansehen? Wir können diese Entscheidung nicht treffen, also müssen wir beide irgendwie einbeziehen. Dazu müssen wir Indikatorfunktionen verwenden: bezeichne I { x ∗ ≥ M } ≡ I ≥ M ( x ∗ ) die Indikatorfunktion, die den Wert 1 annimmt, wenn x ∗ ≥ M istn I{x∗≥M}≡I≥M(x∗) 1 x∗≥M und sonst . Die Dichte eines solchen rv kann geschrieben werden0
und damit die Gelenkdichtefunktion von n solche iid Variablen ist
quelle
Die Wahrscheinlichkeitstheorie ist ein ziemlich allgemeiner Rahmen. Die meisten Lehrbücher geben Ergebnisse für die getrennten Fälle von kontinuierlichen Hochspannungen und für diskrete Hochspannungsfälle an. In der Praxis treten jedoch gemischte Fälle auf, wie dies hier der Fall ist.
Für ein paar rv und mit diskreten / kontinuierlichen gemischten Verbindungstypen ist die Wahrscheinlichkeit die Gelenkverteilung, die normalerweise unter Verwendung bedingter Verteilungen ausgedrückt wird, z. B. So für ein Intervall mit geringer Länge , ist mal die Dichte von abhängig , sagen wirA X
Kommen wir nun zu Ihrem Beispiel zurück und betrachten nur eine Beobachtung. Dann ist ein Bernoulli rv mit der Erfolgswahrscheinlichkeit . Je nach oder nicht, entweder beobachten Sie nur oder Sie beide beobachten und den Wert von . In beiden Fällen verwenden Sie die obige Formel, aber wird entweder als oder als Intervall kleiner Länge verwendet mit . In der Tat gibt diesA=1{X>M} Pr{X>M} X>M A=1 A=0 x X (xL,xU) (M,∞) dx x
quelle