Diese Frage wurde durch zwei kürzlich von mir durchgeführte Interaktionen inspiriert, eine hier im Lebenslauf und die andere bei economics.se.
Dort hatte ich eine Antwort auf das bekannte "Envelope Paradox" gepostet (wohlgemerkt nicht als die "richtige Antwort", sondern als die Antwort, die sich aus bestimmten Annahmen über die Struktur der Situation ergibt). Nach einiger Zeit gab ein Benutzer einen kritischen Kommentar ab und ich führte ein Gespräch, um seinen Standpunkt zu verstehen. Es war offensichtlich, dass er den Bayesianischen Weg dachte und weiter über Prioritäten sprach - und dann dämmerte es mir, und ich sagte zu mir selbst: "Moment mal, wer hat etwas über Prioritäten gesagt? In der Art, wie ich das formuliert habe Problem, es gibt hier keine Priors, sie kommen einfach nicht ins Bild und müssen nicht ".
Kürzlich habe ich diese Antwort hier im Lebenslauf über die Bedeutung der statistischen Unabhängigkeit gesehen. Ich kommentierte den Autor, dass sein Satz
"... wenn Ereignisse statistisch unabhängig sind, können wir (per Definition) nicht aus der Beobachtung der anderen etwas lernen."
war offensichtlich falsch. In einem Kommentaraustausch kehrte er immer wieder zum Thema (seiner Worte) zurück.
"Würde" Lernen "nicht bedeuten, unsere Überzeugungen über eine Sache zu ändern, die auf der Beobachtung einer anderen Sache beruht? Wenn ja, schließt die Unabhängigkeit dies nicht (definitiv) aus?
Wieder einmal war es offensichtlich, dass er den Bayesianischen Weg dachte und dass er es für selbstverständlich hielt, dass wir mit einigen Überzeugungen beginnen (dh mit einer vorherigen) , und dann geht es darum, wie wir sie ändern / aktualisieren können. Aber wie entsteht der erste Glaube?
Da sich die Wissenschaft an die Realität anpassen muss, stelle ich fest, dass Situationen existieren, in denen die beteiligten Menschen keine Vorgesetzten haben (ich gehe zum einen die ganze Zeit ohne Vorgesetzten in Situationen und bitte argumentiere nicht, dass ich Vorgesetzte habe, sondern ich nur nicht merken, lassen Sie uns hier falsche Psychoanalyse ersparen).
Da ich zufällig den Begriff "uninformative Prioritäten" gehört habe, teile ich meine Frage in zwei Teile auf und bin mir ziemlich sicher, dass Benutzer, die in der Bayes'schen Theorie versiert sind, genau wissen, was sie fragen sollen:
F1: Ist das Fehlen eines vorherigen Äquivalents (im streng theoretischen Sinne) zu einem nicht informativen Prior?
Wenn die Antwort auf Q1 "Ja" lautet (bitte mit etwas Ausarbeitung), dann bedeutet dies, dass der Bayes'sche Ansatz universell und von Anfang an anwendbar ist , da in jedem Fall der betroffene Mensch erklärt, "Ich habe keine Vorgesetzten", die wir ergänzen können Es ist ein Prior, der für den vorliegenden Fall nicht aussagekräftig ist.
Lautet die Antwort auf Q1 "Nein", kommt Q2 daher :
Frage 2: Wenn die Antwort auf Frage 1 "Nein" lautet, bedeutet dies, dass in Fällen, in denen es keine Prioritäten gibt, der Bayes'sche Ansatz von Anfang an nicht anwendbar ist und wir zuerst einen Prior durch einen nicht-Bayes'schen Weg bilden müssen. damit wir anschließend den Bayes'schen Ansatz anwenden können?
quelle
Antworten:
F1: Ist das Fehlen eines vorherigen Äquivalents (im streng theoretischen Sinne) zu einem nicht informativen Prior?
Nein.
Erstens gibt es keine mathematische Definition für einen "nicht informativen Prior". Dieses Wort wird nur informell verwendet, um einige Vorgänger zu beschreiben.
Zum Beispiel wird Jeffreys Prior oft als "nicht informativ" bezeichnet. Dieser Prior verallgemeinert den Uniform Prior für übersetzungsinvariante Probleme. Jeffrey´s Vorgänger passt sich irgendwie an die (informationstheoretische) Riemannsche Geometrie des Modells an und ist somit unabhängig von der Parametrisierung, nur abhängig von der Geometrie der Mannigfaltigkeit (im Raum der Verteilungen), die das Modell ist. Es mag als kanonisch empfunden werden, aber es ist nur eine Wahl. Es ist nur die Uniform Prior nach Riemann'scher Struktur. Es ist nicht absurd, "uninformativ = einheitlich" als Vereinfachung der Frage zu definieren. Dies gilt in vielen Fällen und hilft, eine klare und einfache Frage zu stellen.
Der bayesianische und der frequentistische Ansatz beantworten einfach unterschiedliche Fragen. Zum Beispiel über Schätzer, was vielleicht das einfachste ist:
Irgendwie zielt der Frequentist auf die Worst-Case-Kontrolle ab und benötigt keine vorherige. Bayesian strebt eine durchschnittliche Kontrolle an und erfordert eine vorherige Aussage "Durchschnitt in welchem Sinne?".
Frage 2: Wenn die Antwort auf Frage 1 "Nein" lautet, bedeutet dies, dass in Fällen, in denen es keine Prioritäten gibt, der Bayes'sche Ansatz von Anfang an nicht anwendbar ist und wir zuerst einen Prior durch einen nicht-Bayes'schen Weg bilden müssen. damit wir anschließend den Bayes'schen Ansatz anwenden können?
Ja.
Wahre Probleme mit der vorherigen Spezifikation treten meiner Meinung nach bei komplizierteren Problemen auf. Wichtig ist hier zu verstehen, was ein bestimmter Prior sagt.
quelle
Zunächst wird häufig der Bayes'sche Ansatz verwendet, da Sie Vorkenntnisse in Ihr Modell einbeziehen möchten, um es zu bereichern. Wenn Sie keine Vorkenntnisse haben, halten Sie sich an sogenannte "uninformative" oder wöchentlich informative Prioritäten. Beachten Sie, dass einheitliche vor nicht „uninformativ“ ist per Definition, da Annahme über Gleichförmigkeit ist eine Vermutung. Es gibt keinen wirklich uninformativen Prior. Es gibt Fälle, in denen "es könnte alles sein" eine vernünftige "nicht informative" vorherige Annahme ist, aber es gibt auch Fälle, in denen die Aussage "alle Werte sind gleich wahrscheinlich" eine sehr starke und unvernünftige Annahme ist. Wenn Sie beispielsweise davon ausgehen, dass meine Körpergröße zwischen 0 cm und 3 m liegen kann und alle Werte von vornherein gleich wahrscheinlich sind, wäre dies keine vernünftige Annahme und würde den Extremwerten zu viel Gewicht verleihen. so könnte es möglicherweise Ihren posterior verzerren.
Auf der anderen Seite würde Bayesian argumentieren, dass es wirklich keine Situationen gibt, in denen Sie keine Vorkenntnisse oder Überzeugungen haben. Man kann immer etwas annehmen und als Mensch macht man es die ganze Zeit (Psychologen und Verhaltensökonomen haben Unmengen an Forschung zu diesem Thema betrieben). Bei der ganzen Bayes'schen Aufregung mit den Priors geht es darum, diese Vorurteile zu quantifizieren und explizit in Ihrem Modell anzugeben, da es bei der Bayes'schen Folgerung darum geht, Ihre Überzeugungen zu aktualisieren .
Es ist einfach, Argumente ohne vorherige Annahmen oder einheitliche Prioritäten für abstrakte Probleme zu finden, aber für Probleme im wirklichen Leben, die Sie vorher kennen. Wenn Sie einen Einsatz über den Geldbetrag in einem Umschlag machen müssen, müssen Sie wissen, dass der Betrag nicht negativ und endlich sein muss. Sie könnten auch eine Vermutung über die Obergrenze für den möglichen Geldbetrag anstellen, wenn Sie die Regeln des Wettbewerbs, die für Ihren Gegner verfügbaren Mittel, die physische Größe des Umschlags und den physisch passenden Geldbetrag kennen Sie können auch raten, wie viel Geld Ihr Gegner in den Umschlag stecken und möglicherweise verlieren möchte. Es gibt viele Dinge, die Sie als Basis für Ihren Prior kennen würden.
quelle
Frage 1 Ich denke, die Antwort ist wahrscheinlich nein. Mein Grund ist, dass wir nicht wirklich eine Definition für "nicht informativ" haben, außer irgendwie zu messen, wie weit die endgültige Antwort von einem willkürlich informativen Modell / Wahrscheinlichkeit entfernt ist. Viele nicht informative Prioritäten werden anhand von "intuitiven" Beispielen validiert, bei denen wir bereits "das Modell / die Wahrscheinlichkeit" und "die Antwort" im Auge haben. Dann bitten wir den Uninformativen, uns die gewünschte Antwort zu geben.
Mein Problem dabei ist, dass ich nicht glauben kann, dass jemand ein wirklich gutes, gut informiertes Modell oder eine Modellstruktur für seine Population haben und gleichzeitig "keine Informationen" über wahrscheinliche und unwahrscheinliche Parameterwerte für dieses Modell haben kann. Ein Beispiel für die Verwendung der logistischen Regression finden Sie unter "EINE SCHWACH INFORMATIVE STÖRUNG VOR DER VERTRIEBUNG. FÜR LOGISTISCHE UND ANDERE REGRESSIONSMODELLE".
Ich denke, der diskrete Uniform-Prior ist der einzige, den wir vernünftigerweise als "First-First" -Prior bezeichnen können. Aber Sie stoßen auf Probleme bei der Verwendung, weil Sie denken, dass Sie "keine Informationen" haben, aber plötzlich auf "unintuitive" Antworten reagieren (Hinweis: Wenn Sie keine bayesianische Antwort mögen, haben Sie möglicherweise Informationen aus dem vorherigen oder vorherigen Abschnitt ausgelassen Wahrscheinlichkeit!). Ein weiteres Problem, auf das Sie stoßen, ist die richtige Diskretisierung für Ihr Problem. Und selbst wenn Sie dies bedenken, müssen Sie die Anzahl der diskreten Werte kennen, um die diskrete Uniform vorzuziehen.
Eine andere Eigenschaft, die Sie für Ihren Prior berücksichtigen sollten, ist das "Schwanzverhalten" im Verhältnis zu der Wahrscheinlichkeit, die Sie verwenden.
weiter zu Frage 2
Konzeptionell sehe ich nichts Falsches darin, eine Distribution ohne die Verwendung einer vorherigen oder wahrscheinlichen Angabe anzugeben. Sie können ein Problem starten, indem Sie sagen "Mein PDF ist ... und ich möchte ... für dieses PDF berechnen". Dann erstellen Sie eine Einschränkung für die vorherige, vorherige Vorhersage und Wahrscheinlichkeit. Die Bayes'sche Methode eignet sich für den Fall, dass Sie eine Priorität und eine Wahrscheinlichkeit haben und diese zu einer posterioren Verteilung kombinieren möchten.
Es ist wahrscheinlich eine Frage der Klarheit, wie hoch Ihre Wahrscheinlichkeiten sind. Dann verschiebt sich das Argument zu "Stellt dieses pdf / pmf dar, was ich sage, dass es darstellt?" - Was ist der Raum, in dem Sie sein wollen, denke ich. In Ihrem Beispiel sagen Sie, dass die einzelne Distribution alle verfügbaren Informationen widerspiegelt - es gibt kein "Prior", da es bereits (implizit) in der von Ihnen verwendeten Distribution enthalten ist.
auf den so genannten krass falschen Kommentar
Um ehrlich zu sein, wäre ich sehr interessiert zu sehen, wie eine beliebige Anzahl von Beobachtungen verwendet werden könnte, um eine "statistisch unabhängige" Beobachtung vorherzusagen. Wenn ich Ihnen als Beispiel sage, werde ich 100 normale Standardvariablen generieren. Ich gebe dir 99 und veranlasse dich, mir deine beste Vorhersage für den 100. zu geben. Ich sage, Sie können keine bessere Vorhersage für die 100. als 0 machen. Aber dies ist das gleiche, was Sie für die 100. vorhersagen würden, wenn ich Ihnen keine Daten geben würde. Sie lernen also nichts aus den 99 Datenpunkten.
Wenn ich Ihnen jedoch sage, dass es sich um eine "Normalverteilung" handelt, können Sie die 99 Datenpunkte verwenden, um die Parameter zu schätzen. Dann sind die Daten jetzt nicht mehr "statistisch unabhängig", weil wir mehr über die gemeinsame Struktur erfahren, wenn wir mehr Daten beobachten. Ihre beste Vorhersage verwendet jetzt alle 99 Datenpunkte
quelle
Dies ist nur eine kurze Bemerkung als Ergänzung zu den anderen ausgezeichneten Antworten. Oft oder zumindest manchmal ist es etwas willkürlich (oder konventionell), welcher Teil der Informationen, die in eine statistische Analyse eingegeben werden, als Daten bezeichnet wird und welcher Teil als vorrangig bezeichnet wird . Allgemeiner gesagt können wir sagen, dass Informationen in einer statistischen Analyse aus drei Quellen stammen: der Modell , den Daten und dem Prior . In einigen Fällen, wie z. B. bei linearen Modellen oder glm's, ist die Trennung zumindest herkömmlich ziemlich klar.
Ich werde ein Beispiel aus der Maximum-Likelihood-Schätzung (MLE) in Laienbegriffen wiederverwenden , um meinen Standpunkt zu veranschaulichen. Nehmen wir an, ein Patient betritt eine Arztpraxis mit einigen medizinischen Problemen, die sich als schwierig zu diagnostizieren herausstellen. Dieser Arzt hat noch nie etwas Ähnliches gesehen. Im Gespräch mit dem Patienten tauchen dann einige neue Informationen auf: Dieser Patient besuchte vor kurzem das tropische Afrika. Dann scheint es dem Arzt, dass dies Malaria oder eine andere Tropenkrankheit sein könnte. Beachten Sie jedoch, dass es sich bei diesen Informationen eindeutig um Daten von uns handelt, aber zumindest in vielen statistischen Modellen, die verwendet werden könnten, wird es in Form einer vorherigen Verteilung in die Analyse eingehen, wobei eine vorherige Verteilung die Wahrscheinlichkeit für einige tropische Krankheiten erhöht. Aber wir könnten vielleicht ein (größeres), vollständigeres Modell erstellen, in das diese Informationen als Daten eingegeben werden. Also zumindest teilweise die Unterscheidung Daten / Stand ist konventionell.
Wir sind an diese Konvention gewöhnt und akzeptieren sie, weil wir uns auf einige Klassen konventioneller Modelle konzentrieren. Aber im größeren Schema der Dinge außerhalb der Welt der stilisierten statistischen Modelle ist die Situation weniger klar.
quelle