Die Wikipedia-Seite behauptet, dass Wahrscheinlichkeit und Wahrscheinlichkeit unterschiedliche Konzepte sind.
Im nichttechnischen Sprachgebrauch ist "Wahrscheinlichkeit" normalerweise ein Synonym für "Wahrscheinlichkeit", im statistischen Sprachgebrauch gibt es jedoch eine klare Unterscheidung in Bezug auf die Perspektive: Die Zahl, die die Wahrscheinlichkeit einiger beobachteter Ergebnisse bei einer Reihe von Parameterwerten ist, wird als bezeichnet Wahrscheinlichkeit des Parametersatzes unter Berücksichtigung der beobachteten Ergebnisse.
Kann jemand etwas bodenständiger beschreiben, was dies bedeutet? Außerdem wären einige Beispiele dafür, wie "Wahrscheinlichkeit" und "Wahrscheinlichkeit" nicht übereinstimmen, schön.
probability
likelihood
Douglas S. Stones
quelle
quelle
Antworten:
Die Antwort hängt davon ab, ob es sich um diskrete oder kontinuierliche Zufallsvariablen handelt. Also werde ich meine Antwort entsprechend aufteilen. Ich gehe davon aus, dass Sie einige technische Details und nicht unbedingt eine Erklärung in einfachem Englisch wünschen.
Diskrete Zufallsvariablen
Angenommen, Sie haben einen stochastischen Prozess, bei dem diskrete Werte verwendet werden (z. B. das Ergebnis des zehnmaligen Werfens einer Münze, die Anzahl der Kunden, die in 10 Minuten in einem Geschäft eintreffen usw.). In solchen Fällen können wir die Wahrscheinlichkeit berechnen, einen bestimmten Satz von Ergebnissen zu beobachten, indem wir geeignete Annahmen über den zugrunde liegenden stochastischen Prozess treffen (z. B. ist die Wahrscheinlichkeit, dass Münzwürfe landen, und Münzwürfe unabhängig voneinander).p
Bezeichnen Sie die beobachteten Ergebnisse mit und dem Parametersatz, der den stochastischen Prozess als . Wenn wir also von Wahrscheinlichkeit sprechen, wollen wir berechnen . Mit anderen Worten, gegebene spezifische Werte für ;, ist die Wahrscheinlichkeit, dass wir die durch Ergebnisse beobachten würden .O θ P( O | θ ) θ P(O|θ) O
Wenn wir jedoch einen wirklichen Leben stochastischer Prozess modellieren, wir wissen oft nicht . Wir beobachten einfach und das Ziel ist dann, eine Schätzung für , die angesichts der beobachteten Ergebnisse eine plausible Wahl wäre . Wir wissen , dass ein Wert von gegebenen die Wahrscheinlichkeit der Beobachtung ist . Ein 'natürlicher' Schätzprozess besteht also darin, den Wert von ; zu wählen, der die Wahrscheinlichkeit maximiert, dass wir tatsächlich beobachten würden . Mit anderen Worten, wir finden die Parameterwerte , die die folgende Funktion maximieren:θ O θ O θ O P(O|θ) θ O θ
Kontinuierliche Zufallsvariablen
Im kontinuierlichen Fall ist die Situation ähnlich mit einem wichtigen Unterschied. Wir können nicht mehr über die Wahrscheinlichkeit sprechen, dass wir gegebenem weil im stetigen Fall . Ohne auf technische Details einzugehen, lautet die Grundidee wie folgt:O θ P(O|θ)=0
Bezeichnen Sie die Wahrscheinlichkeitsdichtefunktion (pdf), die mit den Ergebnissen assoziiert ist, als: . Im kontinuierlichen Fall schätzen wir daher gegebene beobachtete Ergebnisse durch Maximieren der folgenden Funktion:O f(O|θ) θ O
In dieser Situation können wir technisch nicht behaupten, dass wir den Parameterwert finden, der die Wahrscheinlichkeit, dass wir beobachten, maximiert, während wir das mit den beobachteten Ergebnissen verbundene PDF maximieren .O O
quelle
Dies ist die Art von Frage, die fast jeder beantworten wird, und ich würde erwarten, dass alle Antworten gut sind. Aber Sie sind Mathematiker, Douglas, also lassen Sie mich eine mathematische Antwort geben.
Ein statistisches Modell muss zwei unterschiedliche konzeptionelle Entitäten verbinden: Daten , die Elemente einer Menge sind (z. B. ein Vektorraum), und ein mögliches quantitatives Modell des Datenverhaltens. Modelle werden normalerweise durch Punkte auf einer endlichen Mannigfaltigkeit, einer Mannigfaltigkeit mit Grenze oder einem Funktionsraum dargestellt (letzteres wird als "nicht parametrisches" Problem bezeichnet).x θθ
Die Daten werden mittels einer Funktion mit den möglichen Modellen . Für jedes gegebene ; soll die Wahrscheinlichkeit (oder Wahrscheinlichkeitsdichte) von . Andererseits kann für jedes gegebene als eine Funktion von und es wird üblicherweise angenommen, dass es bestimmte nette Eigenschaften aufweist, wie zum Beispiel, dass es kontinuierlich an zweiter Stelle differenzierbar ist. Die Absicht, auf diese Weise zu betrachten und diese Annahmen aufzugreifen, wird angekündigt, indem die "Wahrscheinlichkeit" genannt wird.x θ Λ(x,θ) θ Λ(x,θ) x x Λ(x,θ) θ Λ Λ
Es ist wie die Unterscheidung zwischen Variablen und Parametern in einer Differentialgleichung: Manchmal wollen wir die Lösung untersuchen (dh wir konzentrieren uns auf die Variablen als Argument) und manchmal wollen wir untersuchen, wie sich die Lösung mit den Parametern ändert. Der Hauptunterschied besteht darin, dass wir in der Statistik selten die gleichzeitige Variation beider Argumente untersuchen müssen. es gibt kein statistisches Objekt, das natürlich einer Änderung sowohl der Daten als auch der Modellparameter . Aus diesem Grund hören Sie mehr über diese Dichotomie als in analogen mathematischen Situationen.x θ
quelle
Ich werde versuchen, die Mathematik in meiner Erklärung zu minimieren, da es bereits einige gute mathematische Erklärungen gibt.
Wie Robin Girand betont, hängt der Unterschied zwischen Wahrscheinlichkeit und Wahrscheinlichkeit eng mit dem Unterschied zwischen Wahrscheinlichkeit und Statistik zusammen . In gewisser Weise beschäftigen sich Wahrscheinlichkeit und Statistik mit gegensätzlichen oder gegensätzlichen Problemen.
Betrachten Sie einen Münzwurf. (Meine Antwort ist ähnlich wie in Beispiel 1 auf Wikipedia .) Wenn wir wissen, dass die Münze fair ist ( ), lautet eine typische Wahrscheinlichkeitsfrage: Wie hoch ist die Wahrscheinlichkeit, zwei Köpfe hintereinander zu bekommen? Die Antwort lautet .P ( H H ) = P ( H ) × P ( H ) = 0,5 × 0,5 = 0,25p=0.5 P(HH)=P(H)×P(H)=0.5×0.5=0.25
Eine typische statistische Frage lautet: Ist die Münze fair? Um dies zu beantworten, müssen wir fragen: Inwieweit unterstützt unsere Stichprobe unsere Hypothese, dass ?P(H)=P(T)=0.5
Der erste zu beachtende Punkt ist, dass sich die Richtung der Frage umgekehrt hat. Wahrscheinlich beginnen wir mit einem angenommenen Parameter ( ) und schätzen die Wahrscheinlichkeit einer gegebenen Stichprobe (zwei Köpfe in einer Reihe). In der Statistik beginnen wir mit der Beobachtung (zwei Köpfe hintereinander) und schließen auf unseren Parameter ( ).P(head) p=P(H)=1−P(T)=1−q
Beispiel 1 auf Wikipedia zeigt, dass die maximale Wahrscheinlichkeitsschätzung von nach 2 Köpfen in einer Reihe . Die Daten schließen jedoch in keiner Weise den wahren Parameterwert (lassen Sie uns im Moment nicht mit den Details befassen). Tatsächlich können nur sehr kleine Werte von und insbesondere von vernünftigerweise nach (zwei Würfe der Münze) eliminiert werden . Nach dem dritten Wurf können wir nun die Möglichkeit eliminieren, dass (dh es ist keine Münze mit zwei Köpfen), aber die meisten Werte dazwischen können vernünftigerweise von den Daten gestützt werdenP(H) pMLE=1 p(H)=0.5 p(H) p(H)=0 n=2 P(H)=1.0 . (Ein genaues binomiales 95% -Konfidenzintervall für beträgt 0,094 bis 0,992.p(H)
Nach 100 Münzwürfen und (sagen wir) 70 Köpfen haben wir nun eine vernünftige Grundlage für den Verdacht, dass die Münze tatsächlich nicht fair ist. Ein exakter 95% -KI auf liegt jetzt bei 0,600 bis 0,787, und die Wahrscheinlichkeit, ein Ergebnis von 70 oder mehr Köpfen (oder Schwänzen) aus 100 Würfen mit beträgt 0,0000785.p(H) p(H)=0.5
Obwohl ich Likelihood-Berechnungen nicht explizit verwendet habe, erfasst dieses Beispiel das Konzept der Likelihood: Likelihood ist ein Maß dafür, inwieweit eine Stichprobe bestimmte Werte eines Parameters in einem parametrischen Modell unterstützt .
quelle
Ich werde Ihnen die Perspektive aus der Sicht der Wahrscheinlichkeitstheorie geben, die ihren Ursprung in Fisher hat - und die Grundlage für die statistische Definition im zitierten Wikipedia-Artikel bildet.
Angenommen, Sie haben Zufallsvariablen die sich aus einer parametrisierten Verteilung , wobei der Parameter ist, der kennzeichnet . Dann wäre die Wahrscheinlichkeit von : mit bekanntem .X F(X;θ) θ F X=x P(X=x)=F(x;θ) θ
Häufiger haben Sie Daten und ist unbekannt. Bei dem angenommenen Modell ist die Wahrscheinlichkeit als die Wahrscheinlichkeit von beobachteten Daten als eine Funktion von : . Man beachte, dass bekannt ist, aber unbekannt ist; Tatsächlich besteht die Motivation zur Definition der Wahrscheinlichkeit darin, den Parameter der Verteilung zu bestimmen.X θ F θ L(θ)=P(θ;X=x) X θ
Obwohl es so aussieht, als hätten wir die Wahrscheinlichkeitsfunktion einfach umgeschrieben, besteht eine wichtige Konsequenz darin, dass die Wahrscheinlichkeitsfunktion nicht den Wahrscheinlichkeitsgesetzen entspricht (z. B. ist sie nicht an das Intervall [0, 1] gebunden). Die Wahrscheinlichkeitsfunktion ist jedoch proportional zur Wahrscheinlichkeit der beobachteten Daten.
Dieses Konzept der Wahrscheinlichkeit führt tatsächlich zu einer anderen Denkrichtung, den "Wahrscheinlichkeitsforschern" (die sich von den häufig auftretenden und den bayesianischen unterscheiden), und Sie können googeln, um nach all den verschiedenen historischen Debatten zu suchen. Der Eckpfeiler ist das Likelihood-Prinzip, das im Wesentlichen besagt, dass wir direkt aus der Likelihood-Funktion schließen können (weder Bayesianer noch Frequentisten akzeptieren dies, da es sich nicht um eine wahrscheinlichkeitsbasierte Schlussfolgerung handelt). Heutzutage ist vieles, was an Schulen als "Frequentist" unterrichtet wird, eine Mischung aus häufigem Denken und Wahrscheinlichkeitsdenken.
Für einen tieferen Einblick ist Edwards ' Wahrscheinlichkeit ein guter Anfang und ein historischer Bezugspunkt . Für eine moderne Interpretation würde ich Richard Royalls wundervolle Monographie Statistical Evidence: A Likelihood Paradigm empfehlen .
quelle
Lassen Sie mich angesichts der oben genannten guten technischen Antworten auf die Sprache zurückkommen: Die Wahrscheinlichkeit quantifiziert die Antizipation (des Ergebnisses), die Wahrscheinlichkeit quantifiziert das Vertrauen (im Modell).
Angenommen, jemand fordert uns zu einem „profitablen Glücksspiel“ heraus. Dann dienen uns Wahrscheinlichkeiten dazu, Dinge wie das erwartete Profil Ihrer Gewinne und Verluste zu berechnen (Mittelwert, Modus, Median, Varianz, Informationsverhältnis, Risikowert, Spielerverlust usw.). Im Gegensatz dazu dient die Wahrscheinlichkeit dazu, zu quantifizieren, ob wir diesen Wahrscheinlichkeiten überhaupt vertrauen. oder ob wir 'eine Ratte riechen'.
Übrigens - da jemand oben die Religionen der Statistik erwähnt hat - glaube ich, dass das Wahrscheinlichkeitsverhältnis ein wesentlicher Bestandteil der bayesianischen und der frequentistischen Welt ist: In der bayesianischen Welt verbindet sich die Bayes-Formel nur mit der Wahrscheinlichkeit, posterior zu produzieren.
quelle
Angenommen, Sie haben eine Münze mit der Wahrscheinlichkeit Kopf und Schwanz zu landen. Lassen zeigen Köpfe und zeigen Schwänze. Definieren Sie wie folgtp (1−p) x=1 x=0 f
quelle
Wenn ich eine faire Münze (Parameterwert) habe, beträgt die Wahrscheinlichkeit, dass sie hochkommt, 0,5. Wenn ich eine Münze 100-mal wirfe und sie 52-mal auftaucht, ist die Wahrscheinlichkeit hoch, dass sie fair ist (der numerische Wert der Wahrscheinlichkeit kann eine Reihe von Formen annehmen).
quelle
Oft ist dieser Ausdruck immer noch eine Funktion beider Argumente, es handelt sich also eher um eine Betonungssache.
quelle
Für mich ist der wichtigste Unterschied, dass Wahrscheinlichkeit keine Wahrscheinlichkeit (von ) ist.θ
In einem Schätzungsproblem ist das X gegeben und die Wahrscheinlichkeit beschreibt eine Verteilung von X anstelle von . Das heißt, ist bedeutungslos, da die Wahrscheinlichkeit kein pdf von , obwohl es in gewissem Maße charakterisiert .P(X|θ) θ ∫P(X|θ)dθ θ θ
quelle
Kennst du den Piloten der Fernsehserie "num3ers", in der das FBI versucht, die Heimatbasis eines Serienverbrechers zu finden, der seine Opfer zufällig auszuwählen scheint?
Der mathematische Berater des FBI und der Bruder des zuständigen Agenten lösen das Problem mit einem Maximum-Likelihood-Ansatz. Zunächst übernimmt er eine „Gugelhupf förmige“ Wahrscheinlichkeit , dass die Verbrechen an Orten statt , nimmt wenn die kriminellen Leben an der Stelle . (Die Gugelhupf-Annahme ist, dass der Verbrecher weder in seiner unmittelbaren Nachbarschaft ein Verbrechen begeht noch extrem weit reist, um sein nächstes zufälliges Opfer zu wählen.) Dieses Modell beschreibt die Wahrscheinlichkeiten für verschiedene gegebenem festen . mit anderen Worten ist eine Funktion von mit einem festen Parameterp(x|θ) x θ x θ pθ(x)=p(x|θ) x θ .
Natürlich kennt das FBI weder das Domizil des Verbrechers noch will es den nächsten Tatort vorhersagen. (sie hoffen , zuerst die Verbrecher zu finden!) ist es umgekehrt, das FBI kennt bereits die Tatorte und will die kriminelle Domizil finden .x θ
so der brillante Bruder FBI - Agenten hat zu versuchen, die meisten finden wahrscheinlich unter allen Werten möglich, dh die , die maximieren für den tatsächlich beobachtete . deshalb betrachtet er jetzt als eine Funktion von mit einem festen Parameter . bildlich gesprochen schiebt er sein gugelhupf auf der karte herum, bis es optimal zu den bekannten verbrechensschauplätzen passt . das FBI an der Tür geht klopft dann in der Mitte des Gugelhupf.θ θ p(x|θ) x lx(θ)=p(x|θ) θ x x θ^
um diesen Perspektivenwechsel zu betonen, wird die Wahrscheinlichkeit (Funktion) von , während die Wahrscheinlichkeit (Funktion) von . beide sind tatsächlich die gleiche Funktion aber aus verschiedenen Perspektiven gesehen, und wobei und ihre Rollen als Variable bzw. Parameter wechseln.lx(θ) θ p θ ( x ) x p ( x | θ ) x θθ pθ(x) x p(x|θ) x θ
quelle