Was ist für Laien der Unterschied zwischen einem Modell und einer Distribution?

28

Die auf Wikipedia definierten Antworten (Definitionen) sind für diejenigen, die mit höherer Mathematik / Statistik nicht vertraut sind, wohl etwas kryptisch.

In mathematischen Begriffen wird ein statistisches Modell normalerweise als Paar ( $S, \mathcal{P}$ ) betrachtet, wobei $S$ die Menge möglicher Beobachtungen ist, dh der Probenraum, und $\mathcal{P}$ eine Menge von Wahrscheinlichkeitsverteilungen auf $S$ .

In Wahrscheinlichkeit und Statistik ordnet eine Wahrscheinlichkeitsverteilung jeder messbaren Teilmenge der möglichen Ergebnisse eines zufälligen Experiments, einer Erhebung oder eines statistischen Inferenzverfahrens eine Wahrscheinlichkeit zu. Es werden Beispiele gefunden, deren Probenraum nicht numerisch ist, wobei die Verteilung eine kategoriale Verteilung wäre.

Ich bin ein Gymnasiast, der sich sehr für dieses Gebiet als Hobby interessiert und derzeit mit den Unterschieden zwischen dem, was a statistical modelund a ist, zu kämpfen hatprobability distribution

Mein aktuelles und sehr rudimentäres Verständnis ist folgendes:

statistische Modelle sind mathematische Versuche, gemessene Verteilungen anzunähern
Wahrscheinlichkeitsverteilungen sind gemessene Beschreibungen von Experimenten, die jedem möglichen Ergebnis eines zufälligen Ereignisses Wahrscheinlichkeiten zuordnen

Die Verwirrung wird durch die Tendenz in der Literatur noch verstärkt, die Wörter "Verteilung" und "Modell" synonym zu verwenden - oder zumindest in sehr ähnlichen Situationen (z. B. Binomialverteilung gegenüber Binomialmodell).

Kann jemand meine Definitionen überprüfen / korrigieren und vielleicht einen formaleren (wenn auch immer noch in Bezug auf einfaches Englisch) Ansatz für diese Konzepte anbieten?

distributions model terminology AlanSTACK
quelle

1

Fazit: Es gibt absolut keinen Unterschied zwischen einem statistischen Modell und einer Wahrscheinlichkeitsverteilung. Jedes statistische Modell beschreibt eine Wahrscheinlichkeitsverteilung und umgekehrt. Lass dich nicht mit langen Texten verwechseln.

Cagdas Ozgenc

3

@Cagdas Nach der in der Frage angegebenen Definition gibt es einen Unterschied: Ein statistisches Modell ist eine bestimmte organisierte Sammlung von Wahrscheinlichkeitsverteilungen. Wenn nur eine Wahrscheinlichkeitsverteilung vorliegt, machen wir überhaupt keine Statistiken mehr, weil das Ziel der statistischen Analyse erreicht wurde: Wir kennen die Verteilung!

whuber

2

Bei cagdas Wikipedia finden Sie die besten Texte. Dem stimme ich voll zu.

whuber

4

@CagdasOzgenc, warum nicht ein paar Beweise vorlegen, um Ihre scharfen und eindeutigen Behauptungen zu untermauern? Ein behördlicher Nachweis ist selten (wenn überhaupt) zulässig. Ohne diese Fähigkeit ist es schwierig (wenn nicht unmöglich), eine produktive Diskussion zu führen. unbegründete Behauptungen sind selten viel mehr als Lärm.

Richard Hardy

2

@RichardHardy Die Frage stellte "Laienbegriffe" und schaute auf die Antworten, die er bekam. Entschuldigen Sie, aber ich hasse es, Studenten leiden zu sehen, nur weil jemand beschließt, anzugeben. Die Antwort ist so einfach wie 2 + 2 = 4, und ich glaube wirklich nicht, dass eine 20-seitige Referenz erforderlich ist.

Cagdas Ozgenc

25

Die Wahrscheinlichkeitsverteilung ist eine mathematische Funktion, die eine Zufallsvariable beschreibt. Genauer gesagt ist es eine Funktion, die Wahrscheinlichkeiten zu Zahlen zuordnet und deren Ausgabe mit Axiomen der Wahrscheinlichkeit übereinstimmen muss .

Das statistische Modell ist eine abstrakte, idealisierte Beschreibung einiger Phänomene in mathematischen Begriffen unter Verwendung von Wahrscheinlichkeitsverteilungen. Zitiert von Wasserman (2013):

Ein statistisches Modell ist eine Menge von Verteilungen (oder Dichten oder Regressionsfunktionen). Ein parametrisches Modell ist eine Menge , die durch eine endliche Anzahl von Parametern parametrisiert werden kann. [...] $\mathfrak{F}$ $\mathfrak{F}$

Im Allgemeinen hat ein parametrisches Modell die Form

$F = {f (x; θ) : θ \in Θ}$ $\mathfrak{F} = \{ f (x; \theta) : \theta \in \Theta \}$
Dabei ist ein unbekannter Parameter (oder ein Vektor von Parametern), der Werte im Parameterraum annehmen kann . Wenn ein Vektor ist, wir aber nur an einer Komponente von interessiert sind , nennen wir die übrigen Parameter Störparameter . Ein nichtparametrisches Modell ist eine Menge , die nicht durch eine endliche Anzahl von Parametern parametrisiert werden kann. $\theta$ $\Theta$ $\theta$ $\theta$ $\mathfrak{F}$

In vielen Fällen verwenden wir Verteilungen als Modelle (Sie können dieses Beispiel überprüfen ). Sie können die Binomialverteilung als Modell für die Anzahl der Köpfe in einer Reihe von Münzwürfen verwenden. In diesem Fall gehen wir davon aus, dass diese Verteilung vereinfacht die tatsächlichen Ergebnisse beschreibt. Dies bedeutet nicht, dass dies eine einzige Möglichkeit ist, ein solches Phänomen zu beschreiben, und auch nicht, dass die Binomialverteilung nur für diesen Zweck verwendet werden kann. Modell kann eine oder mehrere Verteilungen verwenden, während Bayes'sche Modelle auch frühere Verteilungen angeben.

Formal wird dies von McCullaugh (2002) diskutiert:

Nach gegenwärtig akzeptierten Theorien [Cox und Hinkley (1974), Kapitel 1; Lehmann (1983), Kapitel 1; Barndorff-Nielsen und Cox (1994), Abschnitt 1.1; Bernardo und Smith (1994), Kapitel 4] ein statistisches Modell ist ein Satz von Wahrscheinlichkeitsverteilungen auf dem Probenraum . Ein parametrisiertes statistisches Modell ist ein Parameter , der zusammen mit einer Funktion , die jedem Parameterpunkt eine Wahrscheinlichkeitsverteilung auf zuweist . Hier ist die Menge von allem $\mathcal{S}$ $\Theta$ $P : \Theta \rightarrow \mathcal{P} (\mathcal{S})$ $\mathcal{\theta \in \Theta}$ $P \theta$ $\mathcal{S}$ $\mathcal{P}(\mathcal{S})$ Wahrscheinlichkeitsverteilungen auf . In vielen Teilen der folgenden ist es wichtig , zwischen dem Modell als Funktion zu unterscheiden und dem zugehörigen Satz von Verteilungen . $\mathcal{S}$ $P : \Theta \rightarrow \mathcal{P} (\mathcal{S})$ $P\Theta \subset \mathcal{P} (\mathcal{S})$

So statistische Modelle verwenden Wahrscheinlichkeitsverteilungen Daten in ihren Bedingungen zu beschreiben. Parametrische Modelle werden auch als endliche Menge von Parametern beschrieben.

Dies bedeutet nicht, dass alle statistischen Methoden Wahrscheinlichkeitsverteilungen benötigen. Zum Beispiel wird die lineare Regression oft als Normalitätsannahme beschrieben , aber tatsächlich ist sie ziemlich robust, um von der Normalität abzuweichen, und wir benötigen eine Annahme über die Normalität von Fehlern für Konfidenzintervalle und Hypothesentests. Damit die Regression funktioniert, brauchen wir keine solche Annahme, aber um ein vollständig festgelegtes statistisches Modell zu haben, müssen wir es in Form von Zufallsvariablen beschreibenAlso brauchen wir Wahrscheinlichkeitsverteilungen. Ich schreibe darüber, weil man oft Leute sagen hört, dass sie ein Regressionsmodell für ihre Daten verwendet haben - in den meisten Fällen meinen sie eher, dass sie Daten in Form einer linearen Beziehung zwischen Zielwerten und Prädiktoren beschreiben, indem sie einige Parameter verwenden, anstatt auf Bedingungen zu bestehen Normalität.

McCullagh, P. (2002). Was ist ein statistisches Modell? Annalen der Statistik, 1225-1267.

Wasserman, L. (2013). Alle Statistiken: ein prägnanter Kurs in statistischer Inferenz. Springer.

Tim
quelle

4

@ JCLeitão deshalb habe ich den Hinweis hinzugefügt;) Beim klassischen OLS geht es nur darum, die Leitung anzupassen. Normalitätsannahmen beziehen sich nur auf das Rauschen, während die Grundidee darin besteht, dass wir E (y) als lineare Funktion von X modellieren. Normalität ist für Konfidenzintervalle und Tests erforderlich, Regression dagegen für die Anpassung der Linie, und Fehler sind von geringerer Bedeutung. (Lose gesprochen.)

Tim

Vielen Dank für Ihre Antwort. Könnten Sie 2 prägnante Definitionen zusammenfassen? (auch ich verstehe die letzte Zeile nicht

In much of the following, it is important to distinguish between the model as a function and the associated set of distributions

) Wollen Sie nur die inhärente Mehrdeutigkeit zwischen den beiden Bedeutungen, die den gleichen Begriff teilen, kommentieren modeloder vermisse ich etwas?

AlanSTACK

@Alan zwei kurze Definitionen sind in den ersten beiden Absätzen enthalten, während eine strengere Definition im Zitat und in den Referenzen enthalten ist - können Sie klarstellen, was unklar ist? Was die letzte Zeile des Zitats betrifft: Es heißt im Grunde, dass das Modell in Bezug auf Wahrscheinlichkeitsverteilungen und Parameter definiert ist und es ist gut sich daran zu erinnern, dass es diese beiden Aspekte hat, manchmal ist es gut, sie zu unterscheiden. Ich empfehle das zitierte Papier für eine gründliche Diskussion (es ist unter dem Link frei verfügbar).

Tim

8

Stellen Sie sich als eine Reihe von Tickets vor . Sie können Sachen auf ein Ticket schreiben. Normalerweise beginnt ein Ticket mit dem Namen einer Person oder eines Objekts aus der realen Welt, die bzw. das "repräsentiert" oder "modelliert". Auf jedem Ticket ist viel Platz, um andere Dinge zu schreiben. $\mathcal{S}$

Sie können von jedem Ticket so viele Kopien erstellen, wie Sie möchten. Ein Wahrscheinlichkeitsmodell für diese reale Population oder diesen realen Prozess besteht darin, von jedem Ticket eine oder mehrere Kopien zu erstellen, diese zu mischen und in eine Schachtel zu legen. Wenn Sie - der Analytiker - feststellen können, dass der Prozess des zufälligen Zeichnens eines Tickets aus dieser Box alle wichtigen Verhaltensweisen Ihres Studiums nachahmt, können Sie viel über die Welt lernen, indem Sie über diese Box nachdenken. Da einige Tickets in der Schachtel möglicherweise zahlreicher sind als andere, haben sie möglicherweise unterschiedliche Chancen, gezogen zu werden. Die Wahrscheinlichkeitstheorie untersucht diese Chancen. $\mathbb{P}$

Wenn Zahlen (konsistent) auf die Tickets geschrieben werden , führen sie zu (Wahrscheinlichkeits-) Verteilungen. Eine Wahrscheinlichkeitsverteilung beschreibt lediglich den Anteil der Tickets in einer Box, deren Nummern in einem bestimmten Intervall liegen.

Da wir normalerweise nicht genau wissen, wie sich die Welt verhält, müssen wir uns verschiedene Felder vorstellen, in denen die Tickets mit unterschiedlichen relativen Häufigkeiten erscheinen. Die Menge dieser Boxen ist . Wir sehen die Welt wie durch das Verhalten eines der Felder in angemessener Weise beschrieben werden . Es ist Ihr Ziel, vernünftige Vermutungen anzustellen, um welche Box es sich handelt, basierend auf dem, was Sie auf den Tickets sehen, die Sie herausgezogen haben. $\mathcal{P}$ $\mathcal{P}$

$y$ $0$ $100$

$0$ $100$

$0$ $100$ $y_0$ $y_{100}$ $y_0$ $y_{100}$ Beobachtungen stellen mögliche beobachtbare Ergebnisse Ihres Experiments dar. In die Schachtel kommt jeder Satz dieser Tickets: Es ist ein Wahrscheinlichkeitsmodell für das, was Sie für eine gegebene Geschwindigkeitskonstante beobachten könnten .

$y_0$ $y_{100}$

Da es sich bei den Beobachtungen auf jedem Ticket um Zahlen handelt, kommt es zu Wahrscheinlichkeitsverteilungen. Die Annahmen, die in Bezug auf die Kästchen getroffen werden, sind in der Regel in Form von Eigenschaften dieser Verteilungen formuliert, z. B. ob sie auf Null gemittelt werden müssen, symmetrisch sind, eine "Glockenkurvenform" haben, nicht korreliert sind oder was auch immer.

Das ist wirklich alles was dazu gehört. Ähnlich wie aus einer primitiven Zwölftonskala die gesamte westliche klassische Musik hervorging, ist eine Sammlung tickethaltiger Kisten ein einfaches Konzept, das auf äußerst vielfältige und komplexe Weise verwendet werden kann. Es kann nahezu alles modellieren, angefangen von einem Münzwurf bis hin zu einer Bibliothek mit Videos, Datenbanken mit Website-Interaktionen, quantenmechanischen Ensembles und allem anderen, was beobachtet und aufgezeichnet werden kann.

whuber
quelle

3

$\pi$

Typische parametrische statistische Modelle beschreiben, wie die Parameter einer Verteilung von bestimmten Faktoren (eine Variable mit diskreten Werten) und Kovariaten (kontinuierliche Variablen) abhängen. Wenn Sie beispielsweise in einer Normalverteilung davon ausgehen, dass der Mittelwert durch eine feste Zahl (einen "Achsenabschnitt") und eine Zahl (einen "Regressionskoeffizienten") multipliziert mit dem Wert einer Kovariate beschrieben werden kann, erhalten Sie ein lineares Regressionsmodell mit ein normalverteilter Fehlerbegriff. Für eine Binomialverteilung wird ein häufig verwendetes Modell ("logistische Regression") verwendet. $\pi$ $\pi/(1-\pi)$ $\text{intercept}+\beta_1 \text{covariate}_1+\ldots$

Björn
quelle

2

Ja, aber ... Bei einem Modell geht es nicht nur um Parameter, sondern auch um die Struktur des Problems (z. B. ein Wahrscheinlichkeitsmodell, das dem angenommenen Datenerzeugungsprozess ähnelt). Es gibt auch nicht parametrische Modelle.

Tim

2

Eine Wahrscheinlichkeitsverteilung gibt alle Informationen darüber, wie eine Zufallsgröße schwankt. In der Praxis haben wir normalerweise nicht die volle Wahrscheinlichkeitsverteilung unserer interessierenden Menge. Wir können etwas darüber wissen oder annehmen, ohne zu wissen oder anzunehmen, dass wir alles darüber wissen. Zum Beispiel könnten wir annehmen, dass eine Menge normal verteilt ist, aber nichts über den Mittelwert und die Varianz wissen. Dann haben wir eine Sammlung von Kandidaten für die Distribution zur Auswahl; In unserem Beispiel sind alle Normalverteilungen möglich. Diese Sammlung von Verteilungen bildet ein statistisches Modell. Wir verwenden es, indem wir Daten sammeln und dann unsere Kandidatenklasse einschränken, sodass alle verbleibenden Kandidaten in einem angemessenen Sinne mit den Daten übereinstimmen.

Ian
quelle

2

Ein Modell wird durch ein PDF angegeben, es ist jedoch kein PDF.

Die Wahrscheinlichkeitsverteilung (PDF) ist eine Funktion, die Zahlen Wahrscheinlichkeiten zuweist und deren Ausgabe mit den Axiomen der Wahrscheinlichkeit übereinstimmen muss, wie Tim erklärte .

Ein Modell ist vollständig durch eine Wahrscheinlichkeitsverteilung definiert, aber es ist mehr als das. Im Beispiel für das Werfen von Münzen könnte unser Modell "Münze ist fair" + "Jeder Wurf ist unabhängig" sein. Dieses Modell wird durch ein PDF spezifiziert, das ein Binomial mit p = 0,5 ist.

$P(x_1, x_2, x_3, ...)$

Ein Unterschied zwischen dem Modell und dem PDF besteht darin, dass ein Modell als statistische Hypothese interpretiert werden kann. Zum Beispiel können wir beim Münzwurf das Modell betrachten, bei dem die Münze fair ist (p = 0,5) und jeder Wurf unabhängig ist (binomial), und sagen, dass dies unsere Hypothese ist, die wir gegen eine konkurrierende Hypothese testen wollen .

$p$ $p$

Jorge Leitao
quelle

Können Sie Ihren letzten Satz näher erläutern? Das scheint mir ein wichtiger Teil der nichtparametrischen Statistik zu sein.

Ian

Ich habe nicht-parametrische Modelle immer als weniger einschränkend für das PDF von x_i interpretiert, aber für die Statistiken, die sie verwenden, ist immer noch ein PDF erforderlich. Beispielsweise setzt die Kendal-Rangkorrelation die Normalität für die Berechnung des p-Werts voraus . Aber es könnte sein, dass es ein Gegenbeispiel gibt. Ich wäre interessiert.

Jorge Leitao

Ich verstehe nur nicht, was Sie meinen, wenn Sie sagen, dass es keinen Sinn macht, von konkurrierenden PDFs zu sprechen. Dies ist genau das, was wir auch in der parametrischen Statistik wirklich tun: Wir haben eine Reihe von PDFs, von denen wir glauben, dass sie für das Problem gültig sind, wir nehmen einige Daten und schließen aus den Daten, dass eine Teilmenge unserer PDFs besser ist. Dann quantifizieren wir, was wir mit "besser" meinen. (Auch im elementaren Kontext sollten Sie "PDF" wirklich nicht für alles verwenden. Im Distributionssinne funktioniert das letztendlich, aber das ist eine ziemlich ausgefeilte Maschinerie ...)

Ian,

A model is specified by a PDFIch stimme dir nicht zu. Ein Modell kann auch durch mehrere PDF-Dateien angegeben werden. Und ein Modell kann durch kein PDF spezifiziert werden: Stellen Sie sich so etwas wie eine SVM oder einen Regressionsbaum vor.

Ricardo Cruz

2

Sie stellen eine sehr wichtige Frage, Alan, und haben oben einige gute Antworten erhalten. Ich möchte eine einfachere Antwort anbieten und zusätzlich zu der Unterscheidung, die in den obigen Antworten nicht angesprochen wurde, eine zusätzliche Dimension angeben. Der Einfachheit halber bezieht sich alles, was ich hier sagen werde, auf parametrische statistische Modelle.

$y = a x^2 + b x + c$ $y = m x + b$ $F = -k x$ $m$ $b$ $k$

Meine kurze Antwort Nr. 1 auf Ihre Frage lautet: Ein statistisches Modell ist eine Familie von Verteilungen.

Der weitere Punkt, den ich ansprechen wollte, bezieht sich auf das statistische Qualifikationsmerkmal . Wie Judea Pearl in seiner "goldenen Regel der Kausalanalyse" [1, S. 350] ausführt,

Kein Kausalzusammenhang kann durch eine rein statistische Methode festgestellt werden, sei es Neigungsbewertung, Regression, Schichtung oder irgendein anderes verteilungsbasiertes Design.

$F=-kx$ dh von Aussagen über Wahrscheinlichkeitsverteilungen.

Daher lautet meine Antwort # 2 auf Ihre Frage: Modelle verkörpern normalerweise kausale Ideen, die nicht in rein verteilten Begriffen ausgedrückt werden können.

[1]: Perle, Judäa. Kausalität: Modelle, Argumentation und Folgerung. 2. Auflage. Cambridge, UK; New York: Cambridge University Press, 2009. Link zu §11.3.5, einschließlich der zitierten Seite. 351.

David C. Norris
quelle

Vergib mir meine Unwissenheit, aber was meinst du mit dem Wort causal? Hat es eine nuanciertere Bedeutung oder bezieht es sich nur auf den Begriff causalityund die Beziehungen zwischen causesund effects? Vielen Dank für Ihre Antwort, übrigens.

AlanSTACK

F

$F$

x

$x$

F = - k x

$F=-kx$

=

$=$

David C. Norris

Was ist für Laien der Unterschied zwischen einem Modell und einer Distribution?

Antworten: