Wahrscheinlichkeitsfunktion von abgeschnittenen Daten

8

Ich habe ein wenig Probleme, das Konzept und die Ableitung der Wahrscheinlichkeit von Datenkürzungen zu verstehen.

Wenn ich zum Beispiel die Wahrscheinlichkeitsfunktion basierend auf einer Stichprobe aus einer Verteilung finden möchte, aber wenn ich eine Stichprobe aus der Verteilung nehme, beobachte ich die abgeschnittenen Werte (wobei es einen Grenzwert für M , dh ein beliebiges xi>M wird aufgezeichnet als M ):

x1,x2,M,x3,M,x4,x5,...,x10

wobei die Anzahl der M Werte m . Dann ist die Wahrscheinlichkeit angeblich gegeben durch:

L(x;θ)=i=110f(xi;θ)[P(X>M)]m

Ich würde mich sehr über eine Erklärung / einen Beweis dafür freuen, warum dies so ist, und vor allem darüber, warum der zweite Faktor so ist, wie er ist. Wenn möglich intuitiv und mathematisch. Vielen Dank im Voraus.

Delvesy
quelle
Was ist Kleinbuchstaben " m "?
Alecos Papadopoulos
Es ist die Anzahl der Vorkommen von .. dh ich habe 10 + m Datenpunkte beobachtet , von denen 10 nicht abgeschnitten sind, und m von ihnen sind (ich beobachte diese m Picks, alle mit dem Wert M )M10+m10mmM
Delvesy
2
Wie @Alecos hervorhebt, verwenden Sie "abgeschnitten" eigenwillig. "Zensiert" ist der übliche Begriff.
Scortchi - Monica wieder einsetzen
Einige andere Begriffe, nach denen Sie möglicherweise suchen möchten: "Decken- / Bodeneffekte", "Beta-Regression" und "Modelle ohne Inflation".
DWin

Antworten:

8

Was Sie beschreiben, bedarf einer besonderen Behandlung, es ist nicht das, was wir normalerweise mit "abgeschnittenen Zufallsvariablen" meinen - und was wir normalerweise meinen, ist, dass die Zufallsvariable nicht außerhalb der abgeschnittenen Unterstützung liegt, was bedeutet, dass es keine Konzentration der Wahrscheinlichkeitsmasse bei gibt der Punkt der Kürzung. Um Fälle zu kontrastieren:

A) "Übliche" Bedeutung eines abgeschnittenen RV
Für jede Verteilung, bei der wir seine Unterstützung abschneiden, müssen wir seine Dichte "korrigieren", damit sie sich zur Einheit integriert, wenn sie über die abgeschnittene Unterstützung integriert wird. Wenn die Variable Unterstützung in , - < a < b < ∞ hat , dann (pdf f , cdf F )[a,b]<a<b<fF

abfX(x)dx=aMfX(x)dx+MbfX(x)dx=aMfX(x)dx+[1FX(M)]=1

aMfX(x)dx=FX(M)

Da die LHS das Integral über dem abgeschnittenen Träger ist, sehen wir, dass die Dichte des abgeschnittenen rv, genannt , sein mussX~

so dass es sich über [ a , M ] zur Einheit integriert. Der Mittelbegriff im obigen Ausdruck lässt uns diese Situation (zu Recht) als eine Form derKonditionierung betrachten

fX~(x~)=fX(xXM)=fX(x)dx[FX(M)]1
[a,M]-Aber nicht auf einer anderen Zufallsvariablen, sondern auf den möglichen Werten, die der RV selbst annehmen kann. Hier wäre eine gemeinsame Dichte / Wahrscheinlichkeitsfunktion einer Sammlung von abgeschnittenen iid rvs wie üblich das n- fache der obigen Dichte.nn

B) Wahrscheinlichkeitsmassenkonzentration
Hier, was Sie in der Frage beschreiben, sind die Dinge anders. Der Punkt konzentriert die gesamte Wahrscheinlichkeitsmasse, die der Unterstützung der Variablen entspricht, die höher als M ist . Dies erzeugt einen Punkt der Diskontinuität in der Dichte und macht sie zu zwei ZweigenM M

fX(x)=fX(x)x<MfX(x)=P(XM)xM

Formlos, ist die zweite „wie ein diskretes rv“ , wobei jeder Punkt in der Wahrscheinlichkeitsmassenfunktion tatsächliche Wahrscheinlichkeiten darstellt. Nehmen wir nun an, wir haben solche iid-Zufallsvariablen und wollen ihre gemeinsame Dichte / Wahrscheinlichkeitsfunktion bilden. Welchen Zweig sollten wir wählen, bevor wir uns die tatsächliche Stichprobe ansehen? Wir können diese Entscheidung nicht treffen, also müssen wir beide irgendwie einbeziehen. Dazu müssen wir Indikatorfunktionen verwenden: bezeichne I { x M } I M ( x ) die Indikatorfunktion, die den Wert 1 annimmt, wenn x M istnI{xM}IM(x)1xMund sonst . Die Dichte eines solchen rv kann geschrieben werden0

und damit die Gelenkdichtefunktion von n solche iid Variablen ist

fX(x)=fX(x)[1IM(x)]+P(XM)IM(x)
n

fX(Xθ)=i=1n[fX(xi)[1IM(xi)]+P(XiM)IM(xi)]

nMmMvm+v=nmP(XiM)v

L(θ{xi;i=1,...n})=i=1v[fX(xi)]j=1m[P(XjM)]=i=1v[fX(xi)][P(XM)]m
Alecos Papadopoulos
quelle
Vielen Dank. Ich freue mich sehr über die Antwort. Ich denke, mein Hauptproblem ist der erste Punkt unter Abschnitt b) ... dh wie der "zweite Zweig" des PDF definiert ist. Es ist ein diskretes PMF und definiert ein PDF nicht wirklich aus der Definition eines PDF. Könnte dieser Abschnitt weiter erläutert werden? Vielen Dank.
Delvesy
Diese Zufallsvariablen werden als "gemischter Typ" bezeichnet, dh sie sind teilweise kontinuierlich und teilweise diskret. Intuitiv macht es offensichtlich Sinn, wie Ihre Fragen zeigen. Suchen Sie für eine strenge Behandlung nach "Zufallsvariablen vom gemischten Typ" oder "Verteilungen vom gemischten Typ". Verwechseln Sie sie nicht mit "Mischungen".
Alecos Papadopoulos
4

Die Wahrscheinlichkeitstheorie ist ein ziemlich allgemeiner Rahmen. Die meisten Lehrbücher geben Ergebnisse für die getrennten Fälle von kontinuierlichen Hochspannungen und für diskrete Hochspannungsfälle an. In der Praxis treten jedoch gemischte Fälle auf, wie dies hier der Fall ist.

AaapA(a)LxfX(x)xL<X<xUPr{xL<X<xU}xL:=xdx/2xU:=x+dx/2dxfX(x)dx

Für ein paar rv und mit diskreten / kontinuierlichen gemischten Verbindungstypen ist die Wahrscheinlichkeit die Gelenkverteilung, die normalerweise unter Verwendung bedingter Verteilungen ausgedrückt wird, z. B. So für ein Intervall mit geringer Länge , ist mal die Dichte von abhängig , sagen wirAX

L:=Pr{A=a,xL<X<xU}=Pr{A=a}×Pr{xL<X<xU|A=a}.
(xL,xU)dxLpA(a)X{A=a}fX|A(x|a). Auch hier lassen wir den Term weg.dx

Kommen wir nun zu Ihrem Beispiel zurück und betrachten nur eine Beobachtung. Dann ist ein Bernoulli rv mit der Erfolgswahrscheinlichkeit . Je nach oder nicht, entweder beobachten Sie nur oder Sie beide beobachten und den Wert von . In beiden Fällen verwenden Sie die obige Formel, aber wird entweder als oder als Intervall kleiner Länge verwendet mit . In der Tat gibt dies A=1{X>M}Pr{X>M}X>MA=1A=0xX(xL,xU)(M,)dxx

L={Pr{X>M}×1if X>M i.e. A=1,Pr{XM}×fX|A(x|a)dxif XM i.e. A=0.
Da , die Wahrscheinlichkeit ist im zweiten Fall einfach und wir erhalten die beanspruchte Wahrscheinlichkeit bis zum Term für eine Beobachtung mit unendlicher Genauigkeit. Wenn unabhängige Beobachtungen und gemacht werden, wird die Wahrscheinlichkeit als Produkt der Grenzwahrscheinlichkeiten erhalten, die zum Ausdruck in der Frage führen.f X ( x )fX|A(x|0)=fX(x)/Pr{XM}d x A i X ifX(x)dxdxAiXi
Yves
quelle