Was ist die Intuition hinter der Formel für die bedingte Wahrscheinlichkeit?

30

Die Formel für die bedingte Wahrscheinlichkeit von Happening da passiert ist:B P ( AAB

P(A | B)=P(AB)P(B).

Mein Lehrbuch erklärt die Intuition dahinter anhand eines Venn-Diagramms.

Bildbeschreibung hier eingeben

Angesichts dessen, dass aufgetreten ist, besteht die einzige Möglichkeit, dass eintritt, darin, dass das Ereignis in den Schnittpunkt von und fällt .A A BBAAB

In diesem Fall wäre die Wahrscheinlichkeit von einfach gleich der Wahrscheinlichkeit von intersection , da Nur so könnte das Ereignis passieren? Was vermisse ich? A BP(A|B)AB

WorldGov
quelle
7
Haben Sie ein intuitives Verständnis dafür, was bedingte Wahrscheinlichkeit "ist", wenn wir für eine Weile vergessen, wie man sie berechnet?
Juho Kokkala
4
Durch die Konditionierung auf B (das Ereignis, das aufgetreten ist) schränken Sie Ihren Ergebnisraum von (der gesamten Ebene) auf B ein. Sie vergessen alles, was sich außerhalb von B befindet. Die Wahrscheinlichkeit von Ereignis A muss in Bezug auf B gemessen werden, da die Wahrscheinlichkeit zwischen 0 und 1 liegt.Ω
Vladislavs Dovgalecs
1
Sie vermissen die Tatsache, dass der weiße Teil des Kreises von Ereignis A nicht mehr zur Grundgesamtheit gehört, sobald Sie wissen, dass Ereignis B eingetreten ist.
Monty Harder
4
Intuitionen sind nicht genau und auch nicht einzigartig. Warum also nach der (einzigartigen) genauen Intuition fragen? Eine nützliche Intuition reicht aus, aber nicht alle Vorschläge sind für alle Menschen nützlich.
John Coleman

Antworten:

23

Eine gute Anschauung ist gegeben, dass B - mit oder ohne A - aufgetreten ist. Wie hoch ist die Wahrscheinlichkeit für A? Das heißt, wir befinden uns jetzt in dem Universum, in dem B vorkam - der volle rechte Kreis. In diesem Kreis ist die Wahrscheinlichkeit von A die Fläche von A, die B schneidet, geteilt durch die Fläche des Kreises.

user0
quelle
5
Mit anderen Worten - ich sage Ihnen, passiert, was bedeutet, dass wir im Kreis leben. Wie viel Prozent der Ereignisse in dieser Welt befinden sich in der Linse ( )? B A BBBAB
MichaelChirico
18

Ich würde es so sehen: Ich nehme an, dass Sie die Intuition verstehen, bis:

Angesichts der Tatsache, dass B aufgetreten ist, besteht die einzige Möglichkeit für A darin, dass die Gerade in den Schnittpunkt von A und B fällt.

und ich werde das zweite Bild kommentieren, das du gepostet hast:

  1. Stellen Sie sich vor, das gesamte weiße Rechteck ist Ihr Beispielraum .Ω

    Das Zuweisen einer Wahrscheinlichkeit zu einer Menge bedeutet, dass Sie diese Menge in gewisser Weise messen . Es ist dasselbe, als hätten Sie die Fläche des Rechtecks ​​gemessen, aber die Wahrscheinlichkeit ist eine andere Art von Maß, die bestimmte Eigenschaften hat (dazu werde ich nichts weiter sagen).

  2. Sie wissen, dass und dies wie folgt interpretiert wird:P(Ω)=1

    Ω repräsentiert alle Ereignisse, die passieren könnten und etwas muss passieren, damit wir mit 100% iger Wahrscheinlichkeit wissen, dass etwas passiert.

  3. Analog hat die Menge eine Wahrscheinlichkeit , die proportional zur Wahrscheinlichkeit des Abtastraums . Grafisch gesehen ist daher muss das Maß für (seine Wahrscheinlichkeit ) kleiner sein als . Dieselbe Argumentation ist für den Satz gültig . Dieser Satz kann gemessen werden und sein Maß ist .P ( A ) Ω A Ω A P ( A ) , P ( Ω ) A B P ( A B )AP(A)ΩAΩAP(A)P(Ω)ABP(AB)

  4. Wenn Ihnen jetzt gesagt wird, dass passiert ist, müssen Sie denken, als wäre Ihr "neues" . Wenn Ihr "neues" ist, können Sie zu 100% sicher sein, dass in der Menge alles passiert .BBΩBΩB

    Und was bedeutet das? Dies bedeutet, dass Sie jetzt im "neuen" Wettbewerb alle Wahrscheinlichkeitsmaße neu skalieren müssen, wobei zu berücksichtigen ist, dass sie in Bezug auf den "neuen" Probenraum ausgedrückt werden müssen . Es ist eine einfache Proportion.P(BB)=1B

    Deine Intuition ist fast richtig, wenn du das sagst:

die Wahrscheinlichkeit von P (A | B) wäre einfach gleich der Wahrscheinlichkeit von A Schnittpunkt B

und das "fast" ist auf die Tatsache zurückzuführen, dass sich jetzt Ihr Sampleraum geändert hat (es ist jetzt ) und Sie entsprechend neu skalieren möchten .BP(AB)

  1. P(AB) ist Ihr in der neuen Welt, in der der Sample-Raum jetzt . In Worten würden Sie es so sagen (und bitte versuchen Sie es auf dem Bild mit den Sets zu visualisieren):P(AB)B

    In der neuen Welt muss das Verhältnis zwischen dem Maß von und dem Maß von dasselbe sein wie das Verhältnis zwischen dem Maß von und dem Maß vonBABΩAB

  2. Zuletzt übersetze dies in mathematische Sprache (eine einfache Proportion):

P(B):P(AB)=P(Ω):P(AB)

und da folgt, dass:P(Ω)=1

P(AB)=P(AB):P(B)
Hardcore
quelle
5

Sie werden sehen, wie die Intuition leicht über das folgende Problem nachdenkt.

Angenommen, Sie haben 10 Bälle: 6 schwarze und 4 rote. Von schwarzen Bällen sind 3 fantastisch und von roten Bällen ist nur 1 fantastisch. Wie wahrscheinlich ist es, dass ein schwarzer Ball auch fantastisch ist?

Die Antwort ist sehr einfach: Es ist 50%, weil wir 3 Awesome Black Bälle von insgesamt 6 Black Bällen haben.

So ordnen Sie Wahrscheinlichkeiten unserem Problem zu:

  • P(AB)
  • P(B)
  • P(AB)
Aksakal
quelle
1
n(B)=6P(B)=6
@ Silverfish Es wäre genauer, aber ich war nach der Intuition in diesem Fall
Aksakal
4

Für eine grundlegende Intuition der bedingten Wahrscheinlichkeitsformel verwende ich immer gerne eine Zwei-Wege-Tabelle. Nehmen wir an, eine Jahrgangsgruppe besteht aus 150 Schülern, von denen 80 weiblich und 70 männlich sind und jeder genau einen Sprachkurs belegen muss. Die Zwei-Wege-Tabelle der Studenten, die an verschiedenen Kursen teilnehmen, lautet:

        | French   German   Italian  | Total
-------- --------------------------- -------
Male    |     30       20        20  |    70
Female  |     25       15        40  |    80
-------- --------------------------- -------
Total   |     55       35        60  |   150

Wie hoch ist die Wahrscheinlichkeit, dass ein Student den Italienischkurs besucht, wenn er weiblich ist? Nun, der Italienischkurs hat 60 Studenten, von denen 40 Frauen Italienisch lernen. Die Wahrscheinlichkeit muss also sein:

P(F|Italian)=n(FItalian)n(Italian)=4060=23

n(A)An(FItalian)n(F)

Aber wenn die Frage umgedreht würde, wie hoch ist die Wahrscheinlichkeit, dass ein Student den Italienischkurs belegt, wenn er weiblich ist? Dann belegen 40 der 80 Studentinnen den Italienischkurs. Wir haben also:

P(Italian|F)=n(ItalianF)n(F)=4080=12

Ich hoffe, das liefert die Intuition für das Warum

P(A|B)=n(AB)n(B)

Zu verstehen, warum der Bruch mit Wahrscheinlichkeiten anstelle von Kardinalitäten geschrieben werden kann, ist eine Frage äquivalenter Brüche . Kehren wir zum Beispiel zu der Wahrscheinlichkeit zurück, dass eine Studentin weiblich ist, wenn sie Italienisch lernt. Es gibt insgesamt 150 Studenten, die Wahrscheinlichkeit, dass ein Student weiblich ist und Italienisch lernt, beträgt 40/150 (dies ist eine "gemeinsame" Wahrscheinlichkeit) und die Wahrscheinlichkeit, dass ein Student Italienisch lernt, beträgt 60/150 (dies ist eine "marginale" Wahrscheinlichkeit) ). Beachten Sie, dass das Teilen der gemeinsamen Wahrscheinlichkeit durch die Grenzwahrscheinlichkeit Folgendes ergibt:

P(FItalian)P(Italian)=40/15060/150=4060=n(FItalian)n(Italian)=P(F|Italian)

(Um zu sehen, dass die Brüche gleich sind, wird durch Multiplizieren von Zähler und Nenner mit 150 jeweils das "/ 150" entfernt.)

Wenn Ihr Abtastraum allgemeinerΩn(Ω)

P(A|B)=n(AB)n(B)=n(AB)/n(Ω)n(B)/n(Ω)=P(AB)P(B)
Silberfisch
quelle
3

AB

  1. BA
  2. AB

Dies wird dir geben

p(AB)=p(B)p(AB)

ABB

Kabanus
quelle
2

Das Venn-Diagramm repräsentiert nicht die Wahrscheinlichkeit, sondern das Maß für Teilmengen des Ereignisraums. Eine Wahrscheinlichkeit ist das Verhältnis zwischen zwei Maßen; Die Wahrscheinlichkeit von X ist die Größe von "Alles, was X ausmacht" geteilt durch die Größe von "Alle berücksichtigten Ereignisse". Jedes Mal, wenn Sie eine Wahrscheinlichkeit berechnen, benötigen Sie sowohl einen "Erfolgsraum" als auch einen "Bevölkerungsraum". Sie können eine Wahrscheinlichkeit nicht basierend darauf berechnen, "wie groß" der Erfolgsraum ist. Zum Beispiel ist die Wahrscheinlichkeit, eine Sieben mit zwei Würfeln zu würfeln, die Anzahl der Möglichkeiten, eine Sieben zu würfeln, geteilt durch die Gesamtanzahl der Möglichkeiten, zwei Würfel zu würfeln. Nur die Anzahl der Möglichkeiten, eine Sieben zu würfeln, zu kennen, reicht nicht aus, um die Wahrscheinlichkeit zu berechnen. P (A | B) ist das Verhältnis des Maßes von "sowohl A als auch B passieren" Raum und das Maß des "B passiert" Raum. Das ist, was das "|" bedeutet: es bedeutet "mach was danach kommt zum bevölkerungsraum".

Akkumulation
quelle
2

Ich denke, die beste Art, darüber nachzudenken, ist, schrittweise Wege zu gehen.

416113

P(A|B)416113

411312134(16×113)+(16×1213)

4(16×113)

P(A|B)=16×113(16×113)+(16×1213).

Bildbeschreibung hier eingeben

glasig
quelle
2
Ich habe mich gefragt, wofür das Downvote gedacht ist, denn Wahrscheinlichkeitsbäume können sehr lehrreich sein. Möglicherweise besteht die Sorge darin, dass bei der Verwendung von unabhängigen Ereignissen für die Darstellung genau der Punkt der bedingten Wahrscheinlichkeit verfehlt wird, dh, dass sich die Wahrscheinlichkeitsverteilung in Abhängigkeit vom Konditionierungsereignis ändern kann. Die Verwendung einer weniger oberflächlichen Illustration kann hilfreich sein.
Whuber
1

Denken Sie in Zählungen darüber nach. Die Grenzwahrscheinlichkeit gibt an, wie oft A aufgetreten ist, geteilt durch die Stichprobengröße. Die gemeinsame Wahrscheinlichkeit von A und B gibt an, wie oft A zusammen mit B aufgetreten ist, dividiert durch die Stichprobengröße. Die bedingte Wahrscheinlichkeit für A bei gegebenem B ist, wie oft A zusammen mit B aufgetreten ist, geteilt durch die Häufigkeit, mit der B aufgetreten ist, dh nur die A-Werte "innerhalb" der B-Werte.

Auf diesem Blog finden Sie eine schöne visuelle Illustration , die es anhand von Legoblöcken zeigt.

Tim
quelle
1

Zum Zeitpunkt des Schreibens gibt es ungefähr 10 Antworten, die anscheinend alle den wichtigsten Punkt verfehlen: Sie haben im Wesentlichen Recht.

Wäre in diesem Fall die Wahrscheinlichkeit von P (A | B) nicht einfach gleich der Wahrscheinlichkeit von A Schnittpunkt B, da dies der einzige Weg ist, auf dem das Ereignis eintreten könnte?

P(A|B)P(AB)

Was vermisse ich?

P(BB)=P(B)P(B)AP(A|B)

Michael Le Barbier Grünewald
quelle
0

Ich halte es für intuitiver, wenn wir konkrete Daten zur Abschätzung der Wahrscheinlichkeiten haben.

Nehmen wir mtcarsals Beispiel Daten, die Daten sehen so aus (wir verwenden nur die Anzahl der Zylinder und den Getriebetyp.)

> mtcars[,c("am","cyl")]
                    am cyl
Mazda RX4            1   6
Mazda RX4 Wag        1   6
Datsun 710           1   4
Hornet 4 Drive       0   6
...  
...
Ford Pantera L       1   8
Ferrari Dino         1   6
Maserati Bora        1   8
Volvo 142E           1   4

Wir können die gemeinsame Verteilung auf zwei Variablen berechnen , indem wir eine Kreuztabelle erstellen:

> prop.table(table(mtcars$cyl,mtcars$am))

          0       1
  4 0.09375 0.25000
  6 0.12500 0.09375
  8 0.37500 0.06250

Die gemeinsame Wahrscheinlichkeit bedeutet, dass wir zwei Variablen gleichzeitig berücksichtigen möchten. Zum Beispiel werden wir fragen, wie viele Autos 4 Zylinder und Schaltgetriebe sind.

Nun kommen wir zur bedingten Wahrscheinlichkeit. Ich fand den intuitivsten Weg, die bedingte Wahrscheinlichkeit zu erklären, darin, den Begriff Datenfilterung zu verwenden.

P(am=1|cyl=4)

> cyl_4_cars=subset(mtcars, cyl==4)
> prop.table(table(cyl_4_cars$am))

        0         1 
0.2727273 0.7272727 

Das heißt, wir kümmern uns nur um Autos mit 4 Zylindern. Also filtern wir Daten danach. Nach dem Filtern prüfen wir, wie viele davon manuell übertragen werden.

Sie können dies bedingt mit dem bereits erwähnten Gelenk vergleichen, um die Unterschiede zu spüren.

Haitao Du
quelle
0

Wenn Aeine Obermenge Bder Wahrscheinlichkeit, die Aauftritt, immer 1 ist, ist Bdies der Fall, d P(A|B) = 1. H. Allerdings Bkann sich eine Wahrscheinlichkeit viel kleiner als 1 haben.

Betrachten Sie das folgende Beispiel:

  • gegeben xist eine natürliche Zahl in 1..100,
  • Aist ' xist eine gerade Zahl'
  • Bist ' xist teilbar durch 10'

wir haben dann:

  • P(A) ist 0,5
  • P(B) ist 0,1

Wenn wir wissen, dass xdas durch 10 teilbar ist (dh in xist B), wissen wir, dass es auch eine gerade Zahl ist (dh in xist A) P(A|B) = 1.

Nach der Bayes-Regel haben wir:

P(A|B)=P(AB)P(B)

P(AB)xxP(AB)=P(B)P(A|B)=P(B)/P(B)=1


Für ein nicht entartetes Beispiel betrachten wir zB Aist ' xdurch 7 teilbar' und Bist ' xdurch 3 teilbar'. Ist P(A|B)dann gleichbedeutend mit 'vorausgesetzt, wir wissen, dass xdas durch 3 teilbar ist, wie groß ist die Wahrscheinlichkeit, dass es (auch) durch 7 teilbar ist?'. Oder gleichbedeutend mit 'Welcher Bruchteil der Zahlen 3, 6, ..., 99 ist durch 7 teilbar'?

Andre Holzner
quelle
0

Ich denke, Ihre erste Aussage könnte ein Missverständnis sein.

Sie schrieben:

Die Formel für die bedingte Wahrscheinlichkeit des Eintretens von A nach dem Eintreten von B lautet:

Nach Ihrer Formulierung klingt es möglicherweise so, als gäbe es zwei Ereignisse: "Zuerst ist B passiert, und dann möchten wir die Wahrscheinlichkeit berechnen, mit der A eintreten wird."

Das ist nicht der Fall. (Folgendes ist gültig, wenn ein Missverständnis vorliegt oder nicht).

Wir haben nur 1 Veranstaltung, die durch eine von 4 Möglichkeiten beschrieben wird:

  1. AB

  2. AB

  3. BA

  4. AB

P(A)=0.5,P(B)=0.5,andA and B are independent.

P(A and B)=0.25andP(neither A nor B)=0.25.

P(AB)=0.25

BP(AB)P(B)ABP(A|B)0.50.25B

user985366
quelle
0

Die Konditionierungswahrscheinlichkeit ist NICHT gleich der Schnittwahrscheinlichkeit. Hier ist eine intuitive Antwort:

P(BA)AB

P(AB)AB

A

Ausgehend von der Wahrscheinlichkeit des zweiten können wir die Wahrscheinlichkeit des ersten ableiten.

AB

ABA

BAB

Es stellt sich heraus, dass beide Situationen gleichermaßen vorkommen. (Ich kann den intuitiven Grund nicht selbst herausfinden). Wir müssen also beide Szenarien mit gewichten0.5

P(AB)=1/2P(A(BA))+1/2P(B(AB))

ABA

P(AB)=P(A)P(BA)

Tadaaa ... jetzt isoliere die Wahrscheinlichkeit der Konditionierung!

btw. Ich würde mich freuen, wenn jemand erklären könnte, warum Szenario 1 und 2 gleich sind. Der Schlüssel liegt da imo.

OBIEK
quelle