Was ist der Unterschied zwischen Wahrscheinlichkeit und Statistik und warum werden sie gemeinsam untersucht?
116
Was ist der Unterschied zwischen Wahrscheinlichkeit und Statistik und warum werden sie gemeinsam untersucht?
Die kurze Antwort auf diese Frage, die ich von Persi Diaconis gehört habe, lautet wie folgt: Die von Wahrscheinlichkeit und Statistik berücksichtigten Probleme sind invers zueinander. In der Wahrscheinlichkeitstheorie betrachten wir einen zugrunde liegenden Prozess, dessen Zufälligkeit oder Unsicherheit durch Zufallsvariablen modelliert wird, und wir finden heraus, was passiert. In der Statistik beobachten wir etwas, was geschehen ist, und versuchen herauszufinden, welcher zugrunde liegende Prozess diese Beobachtungen erklären würde.
Ich mag das Beispiel eines Glases mit roten und grünen Gummibärchen.
Ein Probabilist beginnt mit der Kenntnis der Proportionen und fragt nach der Wahrscheinlichkeit, eine rote Jelly Bean zu ziehen. Ein Statistiker ermittelt den Anteil der roten Jelly Beans durch Probennahme aus dem Glas.
quelle
Es ist irreführend zu sagen, dass Statistik einfach die Umkehrung der Wahrscheinlichkeit ist. Ja, statistische Fragen sind Fragen der umgekehrten Wahrscheinlichkeit, aber es handelt sich um falsch gestellte umgekehrte Probleme , und dies macht einen großen Unterschied in Bezug auf die Art und Weise, wie sie angegangen werden.
Wahrscheinlichkeit ist ein Zweig der reinen Mathematik - Wahrscheinlichkeitsfragen können mit axiomatischem Denken gestellt und gelöst werden, und daher gibt es für jede Wahrscheinlichkeitsfrage eine richtige Antwort.
Statistische Fragen können werden umgewandelt in der Wahrscheinlichkeits Fragen durch die Verwendung von Wahrscheinlichkeitsmodellen . Sobald wir bestimmte Annahmen über den Mechanismus der Datenerzeugung getroffen haben, können wir statistische Fragen mithilfe der Wahrscheinlichkeitstheorie beantworten. Die korrekte Formulierung und Überprüfung dieser Wahrscheinlichkeitsmodelle ist jedoch genauso wichtig oder noch wichtiger als die anschließende Analyse des Problems unter Verwendung dieser Modelle.
Man könnte sagen, dass die Statistik aus zwei Teilen besteht. Der erste Teil ist die Frage, wie probabilistische Modelle für das Problem zu formulieren und zu bewerten sind. dieses Bestreben liegt im Bereich der "Wissenschaftstheorie". Der zweite Teil ist die Frage nach Antworten, nachdem ein bestimmtes Modell angenommen wurde. Dieser Teil der Statistik ist in der Tat eine Frage der angewandten Wahrscheinlichkeitstheorie und enthält in der Praxis auch einiges an numerischer Analyse.
Siehe: http://bactra.org/reviews/error/
quelle
Ich mag dies von Steve Skiennas berechneten Wetten (siehe den Link für eine vollständige Diskussion):
quelle
Wahrscheinlichkeit ist eine reine Wissenschaft (Mathematik), Statistik handelt von Daten. Sie hängen zusammen, da die Wahrscheinlichkeit eine Art Grundlage für die Statistik bildet und grundlegende Ideen liefert.
quelle
Tabelle 3.1 der Intuitiven Biostatistik beantwortet diese Frage mit dem folgenden Diagramm. Beachten Sie, dass alle Pfeile für die Wahrscheinlichkeit nach rechts und für die Statistik nach links zeigen.
WAHRSCHEINLICHKEIT
STATISTIKEN
quelle
Wahrscheinlichkeit Antworten auf Fragen über das, was wird passieren, beantwortet Statistiken Fragen über das, was war geschehen.
quelle
Bei der Wahrscheinlichkeit geht es darum, die Unsicherheit zu quantifizieren, während die Statistik die Abweichungen bei einem bestimmten Maß an Interesse erklärt (z. B. warum variieren die Einkommensniveaus?), Die wir in der realen Welt beobachten.
Wir erklären die Variation anhand einiger beobachtbarer Faktoren (z. B. Geschlecht, Bildungsniveau, Alter usw. für das Einkommensbeispiel). Da wir jedoch möglicherweise nicht alle möglichen Faktoren berücksichtigen können, die sich auf das Einkommen auswirken, überlassen wir eine ungeklärte Variation zufälliger Fehler (bei denen die Quantifizierung der Unsicherheit eintritt).
Da wir "Variation = Auswirkung beobachtbarer Faktoren + Auswirkung zufälliger Fehler" zuordnen, benötigen wir die von der Wahrscheinlichkeit bereitgestellten Werkzeuge, um die Auswirkung zufälliger Fehler auf die beobachtete Variation zu berücksichtigen.
Es folgen einige Beispiele:
Quantifizierung der Unsicherheit
Beispiel 1: Sie werfen einen 6-seitigen Würfel. Wie hoch ist die Wahrscheinlichkeit, eine 1 zu erhalten?
Beispiel 2: Wie hoch ist die Wahrscheinlichkeit, dass das jährliche Einkommen einer aus den USA zufällig ausgewählten erwachsenen Person weniger als 40.000 US-Dollar beträgt?
Variation erklären
Beispiel 1: Wir beobachten, dass das jährliche Einkommen einer Person variiert. Welche Faktoren erklären die Einkommensschwankungen einer Person?
Natürlich können wir nicht alle Faktoren berücksichtigen. Daher ordnen wir das Einkommen einer Person einigen beobachtbaren Faktoren zu (z. B. Bildungsstand, Geschlecht, Alter usw.) und überlassen alle verbleibenden Schwankungen der Unsicherheit (oder in der Sprache der Statistik: zufälligen Fehlern).
Beispiel 2: Wir beobachten, dass einige Verbraucher die meiste Zeit Tide wählen, wenn sie ein Waschmittel kaufen, während andere Verbraucher die Waschmittelmarke xyz wählen. Was erklärt die Variation in der Wahl? Wir führen die Variation der Auswahl auf einige beobachtbare Faktoren wie Preis, Markenname usw. zurück und überlassen jede ungeklärte Variation zufälligen Fehlern (oder Unsicherheiten).
quelle
Wahrscheinlichkeit ist die Umarmung von Unsicherheit, während Statistik ein empirisches, ausgehungertes Streben nach der Wahrheit ist (verdammte Lügner natürlich ausgeschlossen).
quelle
Ähnlich wie Mark sagte, wurde Statistik historisch als Inverse Wahrscheinlichkeit bezeichnet , da die Statistik versucht, die Ursachen eines Ereignisses anhand der Beobachtungen abzuleiten, während die Wahrscheinlichkeit eher umgekehrt ist.
quelle
Die Wahrscheinlichkeit eines Ereignisses ist seine langfristige relative Häufigkeit. Es gibt Ihnen also die Möglichkeit , beispielsweise beim nächsten Münzwurf einen "Kopf" oder beim nächsten Würfelwurf eine "3" zu erhalten.
Eine Statistik ist ein numerisches Maß, das aus einer Stichprobe der Bevölkerung berechnet wird. Zum Beispiel der Stichprobenmittelwert. Wir verwenden dies als eine Statistik, die den Populationsmittelwert schätzt, der ein Parameter ist. Im Grunde gibt es Ihnen eine Art Zusammenfassung einer Probe.
quelle
Wahrscheinlichkeitsstudien, na ja, wie wahrscheinlich Ereignisse sind. Sie wissen intuitiv, wie hoch die Wahrscheinlichkeit ist.
Statistik ist die Untersuchung von Daten: Zeigen (mithilfe von Werkzeugen wie Diagrammen), Zusammenfassen (mithilfe von Mitteln und Standardabweichungen usw.), Erzielen von Schlussfolgerungen über die Welt, aus der diese Daten stammen (Anpassen von Linien an Daten usw.), und - Dies ist der Schlüssel zur Quantifizierung, wie sicher wir in Bezug auf unsere Schlussfolgerungen sein können.
Um zu quantifizieren, wie sicher wir in Bezug auf unsere Schlussfolgerungen sein können, müssen wir die Wahrscheinlichkeit verwenden. Angenommen, Sie haben die Daten des letzten Jahres zu Niederschlägen in der Region, in der Sie leben, und in der ich wohne. Letztes Jahr regnete es durchschnittlich 1/4-Zoll pro Woche, wo Sie leben, und 3/8-Zoll, wo ich wohne. Wir können also sagen, dass der Niederschlag in meiner Region durchschnittlich 50% höher ist als bei Ihnen, oder? Nicht so schnell, Sparky. Es könnte ein Zufall sein: Vielleicht hat es im letzten Jahr bei mir einfach viel geregnet. Wir können die Wahrscheinlichkeit verwenden, um zu schätzen, wie sicher wir sind, dass mein Zuhause zu 50% feuchter ist als deins.
Grundsätzlich kann man also sagen, dass die Wahrscheinlichkeit die mathematische Grundlage für die Theorie der Statistik ist.
quelle
In der Wahrscheinlichkeitstheorie erhalten wir zufällige Variablen X1, X2, ... und dann untersuchen wir ihre Eigenschaften, dh berechnen die Wahrscheinlichkeit P {X1 \ in B1}, untersuchen die Konvergenz von X1, X2, ... usw .
In der mathematischen Statistik erhalten wir n Realisierungen einer Zufallsvariablen X und eine Menge von Verteilungen D; Das Problem besteht darin, unter den Verteilungen von D eine zu finden, die am wahrscheinlichsten die von uns beobachteten Daten erzeugt.
quelle
Wahrscheinlich ist die Verteilung im Voraus bekannt und erkennbar - Sie beginnen mit einer bekannten Wahrscheinlichkeitsverteilungsfunktion (oder einer ähnlichen Funktion) und nehmen eine Stichprobe daraus auf.
In der Statistik ist die Verteilung im Voraus nicht bekannt. Es kann sogar unerkennbar sein. Es werden Annahmen über die Wahrscheinlichkeitsverteilung hinter beobachteten Daten getroffen, um die Wahrscheinlichkeitstheorie auf diese Daten anwenden zu können, um zu wissen, ob eine Nullhypothese zu diesen Daten verworfen werden kann oder nicht.
Es gibt eine philosophische Diskussion darüber, ob es in der realen Welt eine Wahrscheinlichkeit gibt oder ob es sich um eine ideale Erfindung unserer mathematischen Vorstellungen handelt, und alle unsere Beobachtungen können nur statistisch sein.
quelle
Statistik ist das Streben nach Wahrheit angesichts von Unsicherheit. Wahrscheinlichkeit ist das Werkzeug, mit dem wir die Unsicherheit quantifizieren können.
(Ich habe eine weitere, längere Antwort gegeben, bei der angenommen wurde, dass es sich um etwas handelt, das sich nach dem Motto "Wie würden Sie es Ihrer Großmutter erklären?" Richtet.)
quelle
Haftungsausschluss: Die obigen sind mathematische Antworten. In der Realität geht es in vielen Statistiken auch darum, geeignete Modelle zu entwerfen / zu entdecken, vorhandene Modelle in Frage zu stellen, Experimente zu entwerfen, mit unvollständigen Daten umzugehen usw. "Alle Modelle sind falsch."
quelle
Wahrscheinlichkeit : Bestimmen Sie bei gegebenen bekannten Parametern die Wahrscheinlichkeit, einen bestimmten Datensatz zu beobachten.
Statistik : Machen Sie bei einem bestimmten Satz beobachteter Daten einen Rückschluss auf die möglichen Parameter.
Statistik ist "subjektiver" und "mehr Kunst als Wissenschaft" (relativ zur Wahrscheinlichkeit).
quelle
Der Unterschied zwischen Wahrscheinlichkeiten und Statistiken besteht darin, dass es bei Wahrscheinlichkeiten keinen Fehler gibt. Wir sind uns der Wahrscheinlichkeit sicher, weil wir genau wissen, wie viele Seiten eine Münze haben oder wie viele blaue Karamellen sich in der Vase befinden. Aber in der Statistik untersuchen wir einen Teil einer Population von allem, was wir untersuchen, und daraus versuchen wir, die Wahrheit zu erkennen, aber es gibt immer einen Prozentsatz falscher Schlussfolgerungen. Das einzige, was in der Statistik wahr ist, ist der Fehler, dass es sich tatsächlich um eine Wahrscheinlichkeit handelt.
quelle
https://en.wikipedia.org/wiki/Foundations_of_statistics
Der Punkt, dass die Wahrscheinlichkeitstheorie eine Grundlage der Statistik ist, ist daher kaum umstritten. Alles andere ist Freiwild.
Aber beim Versuch, hilfreicher, praktischer mit einer Antwort zu sein ...
https://en.wikipedia.org/wiki/Probability_and_statistics
Das oben Gesagte ist in keiner Weise erschöpfend oder verbindlich, aber ich glaube, es ist nützlich.
Im Allgemeinen hat es mir geholfen, Dinge zu sehen, wie ...
Mit jedem, der im Durchschnitt stark in den Fundamenten des nächsten verwendet wird. Das heißt, es gibt große Überschneidungen darin, wie wir die Grundlagen des nächsten untersuchen.
PS. Es gibt induktive und deduktive Statistiken, daher liegt hier nicht der Unterschied.
quelle
Viele Leute und Mathematiker sagen, dass "STATISTIK die Umkehrung der Wahrscheinlichkeit ist", aber es ist nicht besonders richtig. Die Herangehensweise oder die Methode zum Lösen dieser 2 sind völlig unterschiedlich, aber sie sind miteinander verbunden .
Ich beziehe mich gerne auf meinen Freund John D. Cook.
"Ich mag das Beispiel eines Glases mit roten und grünen Gummibärchen.
Ein Probabilist beginnt damit, die Proportionen zu kennen, und findet beispielsweise die Wahrscheinlichkeit, eine rote Jelly Bean zu ziehen. Ein Statistiker ermittelt den Anteil der roten Gummibärchen anhand einer Probe aus dem Glas. "
Nun wird der Anteil der roten Geleebohne, der durch Probenahme aus dem Glas erhalten wird, vom Probabilisten verwendet, um die Wahrscheinlichkeit zu ermitteln, mit der eine rote Bohne aus dem Glas gezogen werden kann
Betrachten Sie dieses Beispiel ---- >>>
In einer Prüfung scheiterten 30% der Studenten in Physik, 25% in Mathematik und 12% in Physik und Mathematik. Ein Student wird nach dem Zufallsprinzip ausgewählt, um herauszufinden, mit welcher Wahrscheinlichkeit der Student in der Physik versagt hat, wenn bekannt ist, dass er in der Mathematik versagt hat.
Die obige Summe ist ein Problem der Wahrscheinlichkeit, aber wenn wir genau hinschauen, werden wir feststellen, dass die Summe mit einigen statistischen Daten versehen ist
30% der Schüler scheiterten in Physik, 25% in Mathematik. Dies sind im Grunde genommen Häufigkeiten, wenn die Prozentsätze berechnet werden. Daher werden uns statistische Daten zur Verfügung gestellt, die uns wiederum dabei helfen, die Wahrscheinlichkeit zu ermitteln
Wahrscheinlichkeit und Statistik sind also sehr eng miteinander verbunden, oder wir können vielmehr sagen, dass die Wahrscheinlichkeit in hohem Maße von der Statistik abhängt
quelle
Der Begriff "Statistik" wird von JC Maxwell in dem Artikel Molecules (in Nature 8, 1873, S. 437–441) wunderbar erklärt. Lassen Sie mich die relevante Passage zitieren:
Er gibt diese Erklärung der statistischen Methode in mehreren anderen Arbeiten. Zum Beispiel: "Bei der statistischen Untersuchungsmethode verfolgen wir das System nicht während seiner Bewegung, sondern richten unsere Aufmerksamkeit auf eine bestimmte Phase und stellen fest, ob sich das System in dieser Phase befindet oder nicht und auch, wenn es in die Phase eintritt und wenn es es verlässt "(Trans. Cambridge Philos. Soc. 12, 1879, S. 547–570).
Es gibt eine weitere schöne Passage von Maxwell über "Wahrscheinlichkeit" (aus einem Brief an Campbell, 1850, abgedruckt in The Life of James Clerk Maxwell , S. 143):
Wir können also sagen:
- In der Statistik konzentrieren wir uns "auf eine kleine Anzahl künstlicher Gruppen" oder Mengen; Wir führen eine Art Katalogisierung oder Volkszählung durch.
- Wahrscheinlich berechnen wir unsere Unsicherheit über bestimmte Ereignisse oder Größen.
Die beiden sind verschieden, und wir können das eine ohne das andere machen.
Wenn wir beispielsweise eine vollständige Volkszählung durchführen und die genaue Anzahl der Personen zählen, die bestimmten Gruppen wie Alter, Geschlecht usw. angehören, erstellen wir Statistiken. Es gibt keine Ungewissheit - Wahrscheinlichkeit -, weil die Zahlen, die wir finden, genau und bekannt sind.
Stellen Sie sich andererseits vor, jemand geht auf der Straße vor uns vorbei, und wir fragen uns, wie alt sie sind. In diesem Fall sind wir unsicher und verwenden die Wahrscheinlichkeit, es sind jedoch keine Statistiken beteiligt, da wir keine Art von Volkszählung oder Katalog erstellen.
Beides kann aber auch zusammen auftreten. Wenn wir keine vollständige Volkszählung durchführen können, müssen wir raten, wie viele Menschen in bestimmten Alters- und Geschlechtergruppen leben. Daher verwenden wir die Wahrscheinlichkeit, während wir Statistiken erstellen. Umgekehrt können wir genaue statistische Daten über das Alter der Menschen berücksichtigen und anhand dieser Daten versuchen, die Person, die vor uns vorbeikommt, besser zu erraten. Daher verwenden wir Statistiken, während wir uns für eine Wahrscheinlichkeit entscheiden.
quelle