Die auf Wikipedia definierten Antworten (Definitionen) sind für diejenigen, die mit höherer Mathematik / Statistik nicht vertraut sind, wohl etwas kryptisch.
In mathematischen Begriffen wird ein statistisches Modell normalerweise als Paar ( ) betrachtet, wobei die Menge möglicher Beobachtungen ist, dh der Probenraum, und eine Menge von Wahrscheinlichkeitsverteilungen auf .
In Wahrscheinlichkeit und Statistik ordnet eine Wahrscheinlichkeitsverteilung jeder messbaren Teilmenge der möglichen Ergebnisse eines zufälligen Experiments, einer Erhebung oder eines statistischen Inferenzverfahrens eine Wahrscheinlichkeit zu. Es werden Beispiele gefunden, deren Probenraum nicht numerisch ist, wobei die Verteilung eine kategoriale Verteilung wäre.
Ich bin ein Gymnasiast, der sich sehr für dieses Gebiet als Hobby interessiert und derzeit mit den Unterschieden zwischen dem, was a statistical model
und a ist, zu kämpfen hatprobability distribution
Mein aktuelles und sehr rudimentäres Verständnis ist folgendes:
statistische Modelle sind mathematische Versuche, gemessene Verteilungen anzunähern
Wahrscheinlichkeitsverteilungen sind gemessene Beschreibungen von Experimenten, die jedem möglichen Ergebnis eines zufälligen Ereignisses Wahrscheinlichkeiten zuordnen
Die Verwirrung wird durch die Tendenz in der Literatur noch verstärkt, die Wörter "Verteilung" und "Modell" synonym zu verwenden - oder zumindest in sehr ähnlichen Situationen (z. B. Binomialverteilung gegenüber Binomialmodell).
Kann jemand meine Definitionen überprüfen / korrigieren und vielleicht einen formaleren (wenn auch immer noch in Bezug auf einfaches Englisch) Ansatz für diese Konzepte anbieten?
quelle
Antworten:
Die Wahrscheinlichkeitsverteilung ist eine mathematische Funktion, die eine Zufallsvariable beschreibt. Genauer gesagt ist es eine Funktion, die Wahrscheinlichkeiten zu Zahlen zuordnet und deren Ausgabe mit Axiomen der Wahrscheinlichkeit übereinstimmen muss .
Das statistische Modell ist eine abstrakte, idealisierte Beschreibung einiger Phänomene in mathematischen Begriffen unter Verwendung von Wahrscheinlichkeitsverteilungen. Zitiert von Wasserman (2013):
In vielen Fällen verwenden wir Verteilungen als Modelle (Sie können dieses Beispiel überprüfen ). Sie können die Binomialverteilung als Modell für die Anzahl der Köpfe in einer Reihe von Münzwürfen verwenden. In diesem Fall gehen wir davon aus, dass diese Verteilung vereinfacht die tatsächlichen Ergebnisse beschreibt. Dies bedeutet nicht, dass dies eine einzige Möglichkeit ist, ein solches Phänomen zu beschreiben, und auch nicht, dass die Binomialverteilung nur für diesen Zweck verwendet werden kann. Modell kann eine oder mehrere Verteilungen verwenden, während Bayes'sche Modelle auch frühere Verteilungen angeben.
Formal wird dies von McCullaugh (2002) diskutiert:
So statistische Modelle verwenden Wahrscheinlichkeitsverteilungen Daten in ihren Bedingungen zu beschreiben. Parametrische Modelle werden auch als endliche Menge von Parametern beschrieben.
Dies bedeutet nicht, dass alle statistischen Methoden Wahrscheinlichkeitsverteilungen benötigen. Zum Beispiel wird die lineare Regression oft als Normalitätsannahme beschrieben , aber tatsächlich ist sie ziemlich robust, um von der Normalität abzuweichen, und wir benötigen eine Annahme über die Normalität von Fehlern für Konfidenzintervalle und Hypothesentests. Damit die Regression funktioniert, brauchen wir keine solche Annahme, aber um ein vollständig festgelegtes statistisches Modell zu haben, müssen wir es in Form von Zufallsvariablen beschreibenAlso brauchen wir Wahrscheinlichkeitsverteilungen. Ich schreibe darüber, weil man oft Leute sagen hört, dass sie ein Regressionsmodell für ihre Daten verwendet haben - in den meisten Fällen meinen sie eher, dass sie Daten in Form einer linearen Beziehung zwischen Zielwerten und Prädiktoren beschreiben, indem sie einige Parameter verwenden, anstatt auf Bedingungen zu bestehen Normalität.
McCullagh, P. (2002). Was ist ein statistisches Modell? Annalen der Statistik, 1225-1267.
Wasserman, L. (2013). Alle Statistiken: ein prägnanter Kurs in statistischer Inferenz. Springer.
quelle
In much of the following, it is important to distinguish between the model as a function and the associated set of distributions
) Wollen Sie nur die inhärente Mehrdeutigkeit zwischen den beiden Bedeutungen, die den gleichen Begriff teilen, kommentierenmodel
oder vermisse ich etwas?Stellen Sie sich als eine Reihe von Tickets vor . Sie können Sachen auf ein Ticket schreiben. Normalerweise beginnt ein Ticket mit dem Namen einer Person oder eines Objekts aus der realen Welt, die bzw. das "repräsentiert" oder "modelliert". Auf jedem Ticket ist viel Platz, um andere Dinge zu schreiben.S
Sie können von jedem Ticket so viele Kopien erstellen, wie Sie möchten. Ein Wahrscheinlichkeitsmodell für diese reale Population oder diesen realen Prozess besteht darin, von jedem Ticket eine oder mehrere Kopien zu erstellen, diese zu mischen und in eine Schachtel zu legen. Wenn Sie - der Analytiker - feststellen können, dass der Prozess des zufälligen Zeichnens eines Tickets aus dieser Box alle wichtigen Verhaltensweisen Ihres Studiums nachahmt, können Sie viel über die Welt lernen, indem Sie über diese Box nachdenken. Da einige Tickets in der Schachtel möglicherweise zahlreicher sind als andere, haben sie möglicherweise unterschiedliche Chancen, gezogen zu werden. Die Wahrscheinlichkeitstheorie untersucht diese Chancen.P
Wenn Zahlen (konsistent) auf die Tickets geschrieben werden , führen sie zu (Wahrscheinlichkeits-) Verteilungen. Eine Wahrscheinlichkeitsverteilung beschreibt lediglich den Anteil der Tickets in einer Box, deren Nummern in einem bestimmten Intervall liegen.
Da wir normalerweise nicht genau wissen, wie sich die Welt verhält, müssen wir uns verschiedene Felder vorstellen, in denen die Tickets mit unterschiedlichen relativen Häufigkeiten erscheinen. Die Menge dieser Boxen ist . Wir sehen die Welt wie durch das Verhalten eines der Felder in angemessener Weise beschrieben werden P . Es ist Ihr Ziel, vernünftige Vermutungen anzustellen, um welche Box es sich handelt, basierend auf dem, was Sie auf den Tickets sehen, die Sie herausgezogen haben.P P
Da es sich bei den Beobachtungen auf jedem Ticket um Zahlen handelt, kommt es zu Wahrscheinlichkeitsverteilungen. Die Annahmen, die in Bezug auf die Kästchen getroffen werden, sind in der Regel in Form von Eigenschaften dieser Verteilungen formuliert, z. B. ob sie auf Null gemittelt werden müssen, symmetrisch sind, eine "Glockenkurvenform" haben, nicht korreliert sind oder was auch immer.
Das ist wirklich alles was dazu gehört. Ähnlich wie aus einer primitiven Zwölftonskala die gesamte westliche klassische Musik hervorging, ist eine Sammlung tickethaltiger Kisten ein einfaches Konzept, das auf äußerst vielfältige und komplexe Weise verwendet werden kann. Es kann nahezu alles modellieren, angefangen von einem Münzwurf bis hin zu einer Bibliothek mit Videos, Datenbanken mit Website-Interaktionen, quantenmechanischen Ensembles und allem anderen, was beobachtet und aufgezeichnet werden kann.
quelle
Typische parametrische statistische Modelle beschreiben, wie die Parameter einer Verteilung von bestimmten Faktoren (eine Variable mit diskreten Werten) und Kovariaten (kontinuierliche Variablen) abhängen. Wenn Sie beispielsweise in einer Normalverteilung davon ausgehen, dass der Mittelwert durch eine feste Zahl (einen "Achsenabschnitt") und eine Zahl (einen "Regressionskoeffizienten") multipliziert mit dem Wert einer Kovariate beschrieben werden kann, erhalten Sie ein lineares Regressionsmodell mit ein normalverteilter Fehlerbegriff. Für eine Binomialverteilung wird ein häufig verwendetes Modell ("logistische Regression") verwendet.π π/ (1-π) abfangen + β1kovariate1+ …
quelle
Eine Wahrscheinlichkeitsverteilung gibt alle Informationen darüber, wie eine Zufallsgröße schwankt. In der Praxis haben wir normalerweise nicht die volle Wahrscheinlichkeitsverteilung unserer interessierenden Menge. Wir können etwas darüber wissen oder annehmen, ohne zu wissen oder anzunehmen, dass wir alles darüber wissen. Zum Beispiel könnten wir annehmen, dass eine Menge normal verteilt ist, aber nichts über den Mittelwert und die Varianz wissen. Dann haben wir eine Sammlung von Kandidaten für die Distribution zur Auswahl; In unserem Beispiel sind alle Normalverteilungen möglich. Diese Sammlung von Verteilungen bildet ein statistisches Modell. Wir verwenden es, indem wir Daten sammeln und dann unsere Kandidatenklasse einschränken, sodass alle verbleibenden Kandidaten in einem angemessenen Sinne mit den Daten übereinstimmen.
quelle
Ein Modell wird durch ein PDF angegeben, es ist jedoch kein PDF.
Die Wahrscheinlichkeitsverteilung (PDF) ist eine Funktion, die Zahlen Wahrscheinlichkeiten zuweist und deren Ausgabe mit den Axiomen der Wahrscheinlichkeit übereinstimmen muss, wie Tim erklärte .
Ein Modell ist vollständig durch eine Wahrscheinlichkeitsverteilung definiert, aber es ist mehr als das. Im Beispiel für das Werfen von Münzen könnte unser Modell "Münze ist fair" + "Jeder Wurf ist unabhängig" sein. Dieses Modell wird durch ein PDF spezifiziert, das ein Binomial mit p = 0,5 ist.
Ein Unterschied zwischen dem Modell und dem PDF besteht darin, dass ein Modell als statistische Hypothese interpretiert werden kann. Zum Beispiel können wir beim Münzwurf das Modell betrachten, bei dem die Münze fair ist (p = 0,5) und jeder Wurf unabhängig ist (binomial), und sagen, dass dies unsere Hypothese ist, die wir gegen eine konkurrierende Hypothese testen wollen .
quelle
A model is specified by a PDF
Ich stimme dir nicht zu. Ein Modell kann auch durch mehrere PDF-Dateien angegeben werden. Und ein Modell kann durch kein PDF spezifiziert werden: Stellen Sie sich so etwas wie eine SVM oder einen Regressionsbaum vor.Sie stellen eine sehr wichtige Frage, Alan, und haben oben einige gute Antworten erhalten. Ich möchte eine einfachere Antwort anbieten und zusätzlich zu der Unterscheidung, die in den obigen Antworten nicht angesprochen wurde, eine zusätzliche Dimension angeben. Der Einfachheit halber bezieht sich alles, was ich hier sagen werde, auf parametrische statistische Modelle.
Meine kurze Antwort Nr. 1 auf Ihre Frage lautet: Ein statistisches Modell ist eine Familie von Verteilungen.
Der weitere Punkt, den ich ansprechen wollte, bezieht sich auf das statistische Qualifikationsmerkmal . Wie Judea Pearl in seiner "goldenen Regel der Kausalanalyse" [1, S. 350] ausführt,
Daher lautet meine Antwort # 2 auf Ihre Frage: Modelle verkörpern normalerweise kausale Ideen, die nicht in rein verteilten Begriffen ausgedrückt werden können.
[1]: Perle, Judäa. Kausalität: Modelle, Argumentation und Folgerung. 2. Auflage. Cambridge, UK; New York: Cambridge University Press, 2009. Link zu §11.3.5, einschließlich der zitierten Seite. 351.
quelle
causal
? Hat es eine nuanciertere Bedeutung oder bezieht es sich nur auf den Begriffcausality
und die Beziehungen zwischencauses
undeffects
? Vielen Dank für Ihre Antwort, übrigens.