Ich spreche oft über das Ausleihen von Informationen oder den Austausch von Informationen in Bayes'schen hierarchischen Modellen. Ich kann anscheinend keine klare Antwort darauf bekommen, was dies tatsächlich bedeutet und ob es nur für Bayes'sche hierarchische Modelle gilt. Ich komme auf die Idee: Einige Ebenen in Ihrer Hierarchie haben einen gemeinsamen Parameter. Ich habe jedoch keine Ahnung, wie sich dies auf "Ausleihen von Informationen" auswirkt.
Ist "Ausleihen von Informationen" / "Teilen von Informationen" ein Modewort, das die Leute gerne wegwerfen?
Gibt es ein Beispiel mit Posterioren in geschlossener Form, das dieses Phänomen des Teilens veranschaulicht?
Ist dies einzigartig für eine Bayes'sche Analyse? Wenn ich Beispiele für "Ausleihen von Informationen" sehe, handelt es sich im Allgemeinen nur um gemischte Modelle. Vielleicht habe ich diese Modelle auf altmodische Weise gelernt, aber ich sehe kein Teilen.
Ich bin nicht daran interessiert, eine philosophische Debatte über Methoden zu beginnen. Ich bin nur neugierig auf die Verwendung dieses Begriffs.
Antworten:
Dies ist ein Begriff, der speziell aus empirischen Bayes (EB) stammt. Tatsächlich existiert das Konzept, auf das er sich bezieht, in der wahren Bayes'schen Folgerung nicht. Der ursprüngliche Begriff war "Kreditstärke", der bereits in den 1960er Jahren von John Tukey geprägt und in den 1970er und 1980er Jahren von Bradley Efron und Carl Morris in einer Reihe statistischer Artikel zu Steins Paradoxon und parametrischem EB weiter populär gemacht wurde. Viele Menschen verwenden heute "Ausleihen von Informationen" oder "Teilen von Informationen" als Synonyme für dasselbe Konzept. Der Grund, warum Sie es im Zusammenhang mit gemischten Modellen hören können, ist, dass die häufigsten Analysen für gemischte Modelle eine EB-Interpretation haben.
EB hat viele Anwendungen und gilt für viele statistische Modelle. Der Kontext besteht jedoch immer darin, dass Sie eine große Anzahl (möglicherweise unabhängiger) Fälle haben und versuchen, jeweils einen bestimmten Parameter (wie den Mittelwert oder die Varianz) zu schätzen. Bei der Bayes'schen Inferenz machen Sie posteriore Inferenzen über den Parameter, basierend sowohl auf den beobachteten Daten für jeden Fall als auch auf der vorherigen Verteilung für diesen Parameter. Bei der EB-Inferenz wird die vorherige Verteilung für den Parameter aus der gesamten Sammlung von Datenfällen geschätzt, wonach die Inferenz wie bei der Bayes'schen Inferenz abläuft. Wenn Sie also den Parameter für einen bestimmten Fall schätzen, verwenden Sie sowohl die Daten für diesen Fall als auch die geschätzte vorherige Verteilung, und letztere repräsentiert die "Information" oder "Stärke".
Jetzt können Sie sehen, warum EB "Kredite" hat, echte Bayes jedoch nicht. In echten Bayes existiert die vorherige Verteilung bereits und muss daher nicht angefleht oder ausgeliehen werden. In EB wurde die vorherige Verteilung aus den beobachteten Daten selbst erstellt. Wenn wir auf einen bestimmten Fall schließen, verwenden wir alle beobachteten Informationen aus diesem Fall und ein wenig Informationen aus jedem der anderen Fälle. Wir sagen, es ist nur "geliehen", weil die Informationen zurückgegeben werden, wenn wir fortfahren, um Rückschlüsse auf den nächsten Fall zu ziehen.
Die Idee von EB und "Ausleihen von Informationen" wird in der statistischen Genomik häufig verwendet, wenn jeder "Fall" normalerweise ein Gen oder ein genomisches Merkmal ist (Smyth, 2004; Phipson et al., 2016).
Verweise
Efron, Bradley und Carl Morris. Steins Paradoxon in der Statistik. Scientific American 236, No. 5 (1977): 119 & ndash; 127. http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf
Smyth, GK (2004). Lineare Modelle und empirische Bayes-Methoden zur Bewertung der differentiellen Expression in Microarray-Experimenten. Statistische Anwendungen in der Genetik und Molekularbiologie Band 3, Ausgabe 1, Artikel 3. http://www.statsci.org/smyth/pubs/ebayes.pdf
Phipson, B, Lee, S, Majewski, IJ, Alexander, WS und Smyth, GK (2016). Eine robuste Hyperparameterschätzung schützt vor hypervariablen Genen und verbessert die Fähigkeit, differentielle Expression zu erkennen. Annals of Applied Statistics 10, 946-963. http://dx.doi.org/10.1214/16-AOAS920
quelle
Stellen Sie sich ein einfaches Problem vor, wie das Schätzen der Mittelwerte mehrerer Gruppen. Wenn Ihr Modell sie als völlig unabhängig behandelt, sind die einzigen Informationen, die Sie über jeden Mittelwert haben, die Informationen innerhalb dieser Gruppe. Wenn Ihr Modell ihre Mittelwerte als etwas verwandt behandelt (wie in einem Modell mit gemischten Effekten), sind die Schätzungen genauer, da Informationen aus anderen Gruppen die Schätzung für eine bestimmte Gruppe informieren (regulieren, auf einen gemeinsamen Mittelwert verkleinern). Das ist ein Beispiel für das Ausleihen von Informationen.
Der Begriff taucht in versicherungsmathematischen Arbeiten im Zusammenhang mit der Glaubwürdigkeit auf (nicht unbedingt mit dem spezifischen Begriff „Kreditaufnahme“, obwohl die Kreditaufnahme in diesem Sinne in den Formeln ausdrücklich angegeben ist). Dies reicht weit zurück, bis vor mindestens einem Jahrhundert, mit klaren Vorläufern, die bis in die Mitte des neunzehnten Jahrhunderts zurückreichen. Siehe zum Beispiel Longley-Cook, LH (1962) Eine Einführung in die Glaubwürdigkeitstheorie PCAS, 49, 194-221.
Hier ist Whitney, 1918 (The Theory of Experience Rating, PCAS, 4, 274-292):
Während der Begriff Ausleihe hier fehlt, ist der Gedanke, die Informationen auf Gruppenebene zu verwenden, um uns über diese Maschinenwerkstatt zu informieren, eindeutig vorhanden. [Die Begriffe bleiben unverändert, wenn "Kreditstärke" und "Kreditinformationen" auf diese Situation angewendet werden.]
quelle
Schließlich handelt es sich bei der Mehrebenenmodellierung nicht nur um gemischte Effekte, obwohl diese am häufigsten vorkommen. Jedes Modell, in dem Parameter nicht nur von Prioritäten und Daten, sondern auch von anderen unbekannten Parametern beeinflusst werden, kann als Mehrebenenmodell bezeichnet werden. Natürlich ist dies ein sehr flexibler Satz von Modellen, der jedoch mit Tools wie Stan, NIMBLE, JAGS usw. von Grund auf neu geschrieben und mit minimalem Arbeitsaufwand angepasst werden kann. Insofern bin ich mir nicht sicher, ob ich mehrstufig sagen würde Modellierung ist "Hype"; Grundsätzlich können Sie jedes Modell schreiben, das als gerichteter azyklischer Graph dargestellt werden kannund passen Sie es sofort an (vorausgesetzt, es hat eine angemessene Laufzeit). Dies bietet viel mehr Leistung und potenzielle Kreativität als herkömmliche Optionen (dh Regressionsmodellpakete), erfordert jedoch nicht, dass ein komplettes R-Paket von Grund auf neu erstellt wird, nur um auf einen neuen Modelltyp zu passen.
quelle
Ich gehe davon aus, dass Sie, da Sie maschinelles Lernen markiert haben, eher an Vorhersage als an Inferenz interessiert sind. (Ich glaube, ich stimme mit der Antwort von @Glen_b überein, übersetze aber nur in diesen Kontext / dieses Vokabular.)
Ich würde in diesem Fall behaupten, dass es ein Schlagwort ist. Ein reguliertes lineares Modell mit einer Gruppenvariablen leiht Informationen aus: Die Vorhersage auf individueller Ebene ist eine Kombination aus Gruppenmittelwert und individuellem Effekt. Eine Möglichkeit, sich die l1 / l2-Regularisierung vorzustellen, besteht darin, einen Koeffizienten pro Zuordnung des Gesamtfehlers zuzuweisen, da eine Gruppenvariable mehr Stichproben als eine einzelne Variable betrifft, besteht der Druck, einen Gruppeneffekt abzuschätzen, wobei eine geringere Abweichung von übrig bleibt Gruppeneffekt für jede einzelne Variable.
Für einzelne Punkte mit genügend Daten ist der individuelle Effekt "stark", für diejenigen mit wenig Daten ist der Effekt schwach.
Ich denke, der einfachste Weg, dies zu sehen, besteht darin, die L1-Regularisierung und 3 Personen derselben Gruppe mit demselben Effekt zu berücksichtigen. Unregelmäßig hat das Problem unendlich viele Lösungen, während die Regularisierung eine einzigartige Lösung bietet.
Das Zuweisen des gesamten Effekts zum Gruppenkoeffizienten hat die niedrigste l1-Norm, da wir nur 1 Wert benötigen, um 3 Personen abzudecken. Umgekehrt hat das Zuweisen des gesamten Effekts zu den einzelnen Koeffizienten das Schlimmste, nämlich das Dreifache der l1-Norm zum Zuweisen des Effekts zum Gruppenkoeffizienten.
Beachten Sie, dass wir so viele Hierarchien haben können, wie wir möchten, und dass Interaktionen in ähnlicher Weise betroffen sind: Durch die Regularisierung werden Effekte auf Hauptvariablen übertragen, anstatt auf seltenere Interaktionen.
Der Blog tjmahr.com/plotting-partial-pooling-in-mixed-effects-models . - verbunden durch @IsabellaGhement gibt ein Angebot für aufgenommene Kredite Stärke
"Dieser Effekt wird manchmal als Schrumpfung bezeichnet, da die Schrumpfung bei extremeren Werten zu einem vernünftigeren, durchschnittlicheren Wert führt. Im lme4-Buch bietet Douglas Bates eine Alternative zur Schrumpfung [Name]."
quelle
Eine weitere Quelle, die ich zu diesem Thema empfehlen möchte und die ich besonders lehrreich finde, ist David Robinsons Einführung in empirische Bayes .
Sein laufendes Beispiel ist das, ob es einem Baseballspieler gelingt, den nächsten Ball zu treffen, der auf ihn geworfen wird. Die Schlüsselidee ist, dass man, wenn ein Spieler schon seit Jahren da ist, ein ziemlich klares Bild davon hat, wie fähig er ist, und insbesondere seinen beobachteten Schlagdurchschnitt als eine ziemlich gute Schätzung der Erfolgswahrscheinlichkeit auf dem nächsten Platz verwenden kann.
Umgekehrt hat ein Spieler, der gerade angefangen hat, in einer Liga zu spielen, noch nicht viel von seinem tatsächlichen Talent preisgegeben. Es scheint daher eine kluge Entscheidung zu sein, die Schätzung seiner Erfolgswahrscheinlichkeit auf einen Gesamtmittelwert anzupassen, wenn er in seinen ersten Spielen besonders erfolgreich oder erfolglos war, da dies wahrscheinlich zumindest teilweise auf Glück oder Pech zurückzuführen ist .
Als kleiner Punkt scheint der Begriff "Ausleihen" sicherlich nicht in dem Sinne verwendet zu werden, dass etwas, das ausgeliehen wurde, irgendwann zurückgegeben werden müsste ;-).
quelle