Unterschiede zwischen einem statistischen Modell und einem Wahrscheinlichkeitsmodell?

29

Die angewandte Wahrscheinlichkeit ist ein wichtiger Zweig der Wahrscheinlichkeit, einschließlich der rechnerischen Wahrscheinlichkeit. Da die Statistik nach meinem Verständnis die Wahrscheinlichkeitstheorie verwendet, um Modelle für den Umgang mit Daten zu erstellen, frage ich mich, was der wesentliche Unterschied zwischen dem statistischen Modell und dem Wahrscheinlichkeitsmodell ist. Wahrscheinlichkeitsmodell benötigt keine realen Daten? Vielen Dank.

Honglang Wang
quelle

Antworten:

29

Ein Wahrscheinlichkeitsmodell besteht aus dem Triplett , wobei der Probenraum ist, eine Algebra (Ereignisse) und ist ein Wahrscheinlichkeitsmaß für .Ω F σ P F(Ω,F,P)ΩFσPF

Intuitive Erklärung . Ein Wahrscheinlichkeitsmodell kann als bekannte Zufallsvariable interpretiert werden . Zum Beispiel sei eine normalverteilte Zufallsvariable mit Mittelwert und Varianz . In diesem Fall ist das Wahrscheinlichkeitsmaß der kumulativen Verteilungsfunktion ( Cumulative Distribution Function, CDF) bis zugeordnetX 0 1 P FXX01PF

F(x)=P(Xx)=P(ωΩ:X(ω)x)=x12πexp(t22)dt.

Verallgemeinerungen . Die Definition des Wahrscheinlichkeitsmodells hängt von der mathematischen Definition der Wahrscheinlichkeit ab, siehe z. B. Freie Wahrscheinlichkeit und Quantenwahrscheinlichkeit .

Ein statistisches Modell ist eine Menge von Wahrscheinlichkeitsmodellen. Dies ist eine Menge von Wahrscheinlichkeitsmaßen / -verteilungen im Stichprobenraum . ΩSΩ

Diese Menge von Wahrscheinlichkeitsverteilungen wird normalerweise ausgewählt, um ein bestimmtes Phänomen zu modellieren, von dem wir Daten haben.

Intuitive Erklärung . In einem statistischen Modell sind die Parameter und die Verteilung, die ein bestimmtes Phänomen beschreiben, beide unbekannt. Ein Beispiel hierfür ist die Familie der Normalverteilungen mit dem Mittelwert und der Varianz . Dies ist, dass beide Parameter unbekannt sind und Sie normalerweise die verwenden möchten Datensatz zur Schätzung der Parameter (dh Auswahl eines Elements von ). Diese Menge von Verteilungen kann für jedes und , aber, wenn ich mich nicht irre, sind in einem realen Beispiel nur diejenigen sinnvoll, die für dasselbe Paar definiert wurden Erwägen. σ 2R + S Ω F ( Ω , F )μRσ2R+SΩF(Ω,F)

Verallgemeinerungen . Dieses Papier enthält eine sehr formale Definition des statistischen Modells, aber der Autor erwähnt, dass "das Bayes'sche Modell eine zusätzliche Komponente in Form einer vorherigen Verteilung erfordert ... obwohl Bayes'sche Formulierungen nicht der Hauptfokus dieses Papiers sind". Daher hängt die Definition des statistischen Modells von der Art des verwendeten Modells ab: parametrisch oder nichtparametrisch. Auch in der Parametereinstellung hängt die Definition davon ab, wie Parameter behandelt werden (z. B. Klassisch vs. Bayesianisch).

Der Unterschied ist: In einem Wahrscheinlichkeitsmodell kennen Sie genau das Wahrscheinlichkeitsmaß, zum Beispiel eine , wobei bekannte Parameter sind Modell, das Sie als Verteilungssätze betrachten, z. B. , wobei unbekannte Parameter sind.μ 0 , σ 2 0 Normal ( μ , σ 2 ) μ , σ 2Normal(μ0,σ02)μ0,σ02Normal(μ,σ2)μ,σ2

Keiner von ihnen erfordert einen Datensatz, aber ich würde sagen, dass für die Modellierung normalerweise ein statistisches Modell ausgewählt wird.

Xi'an
quelle
2
@HonglangWang Das ist bis zu einem gewissen Grad richtig. Der Hauptunterschied besteht darin, dass ein Wahrscheinlichkeitsmodell nur eine (bekannte) Verteilung ist, während ein statistisches Modell eine Menge von Wahrscheinlichkeitsmodellen ist; Die Daten werden verwendet, um ein Modell aus dieser Menge oder einer kleineren Teilmenge von Modellen auszuwählen, die das Phänomen (im Lichte der Daten) besser (in gewissem Sinne) beschreiben.
2
(+1) Dies ist eine nette Antwort, obwohl ich ein paar Kommentare habe. Erstens denke ich, dass dies den Probabilisten ein bisschen zu kurz bringen könnte. Es ist überhaupt nicht ungewöhnlich, eine Menge von Wahrscheinlichkeitsräumen in einem Wahrscheinlichkeitsmodell zu betrachten, und tatsächlich können die möglichen Maße sogar zufällig sein (auf einem angemessen größeren Raum konstruiert). Zweitens könnte ein Bayesianer (insbesondere) diese Antwort als etwas beunruhigend empfinden, da ein Bayesianisches statistisches Modell oft als ein einzelnes Wahrscheinlichkeitsmodell für einen geeigneten Produktraum . Ω×Θ
Kardinal
1
@gung Dies ist eine eher auf die Maßtheorie bezogene Frage. In Bezug auf Ihre erste Frage wird in der Tat durch die CDF definiert. Nun wird die Interpretation von ist das schwierig , weil formal mittels , then sind keine beobachtbaren Werte. ist eine Algebra, die das der Borel Algebra unter , auch diese sind nicht beobachtbar. Ich bin mir nicht sicher, wie ich das auf einer intuitiven Ebene erklären soll. Ω P (Xx) P (ωΩ:X(ω)x)Ω F σ-σ-XPΩP(Xx)P(ωΩ:X(ω)x)ΩFσσX
2
@gung hängt von der Anwendung ab . es ist nicht durch die Theorie bestimmt. Zum Beispiel könnte eine Reihe von Brownschen Bewegungen sein, die den Preis eines Finanzderivats beschreiben, und könnte der Wert sein, der zu einem festen Zeitpunkt . In einer anderen Anwendung könnte eine Gruppe von Personen sein und könnte die Länge ihrer Unterarme sein. Im Allgemeinen ist ein mathematisches Modell der physischen Untersuchungsobjekte und eine numerische Eigenschaft dieser Objekte. ist die Menge der möglichen Ereignisse: die Situationen, denen wir Wahrscheinlichkeiten zuordnen möchten.Ω X t Ω X Ω X FΩΩXtΩXΩXF
Whuber
2
@gung ist eine Sigma-Algebra : Es ist eine Sammlung von Teilmengen (die "Ereignisse"). In der Finanzanwendung handelt es sich um eine Reihe von Preisverläufen. In der Anwendung für Unterarmmessungen wären die Ereignisse Gruppen von Menschen. Wir können mehr darüber reden, wenn Sie in einem Chatraum wollen. F
whuber