Gibt es einen „Standard“ für die statistische Modellnotation?

Zum Beispiel wird im BUGS-Handbuch oder im kommenden Buch von Lee und Wagenmakers ( pdf ) und an vielen anderen Stellen eine Art von Notation verwendet, die mir sehr flexibel erscheint, da sie zur prägnanten Beschreibung der meisten statistischen Modelle verwendet werden kann. Ein Beispiel für diese Notation ist das Folgende:

y_{i} \sim Binomial (p_{i}, n_{i}) \log (\frac{p_{i}}{1 - p_{i}}) = b_{i} b_{i} \sim Normal (μ_{p}, σ_{p})

$y_i \sim \text{Binomial}(p_i,n_i) \\ \log(\frac{p_i}{1 - p_i}) = b_i \\ b_i \sim \text{Normal}(\mu_p,\sigma_p)$

Dies würde ein hierarchisches Logistikmodell ohne Prädiktoren beschreiben, aber mit Gruppen. Diese Art der Beschreibung von Modellen scheint für die Beschreibung von frequentistischen und Bayes'schen Modellen gleich gut zu funktionieren. Um diese Modellbeschreibung beispielsweise vollständig Bayes'sch zu machen, müssten Sie lediglich Prioritäten für und hinzufügen . $i = 1\dots n$ $\mu_p$ $\sigma_p$

Wird diese Art von Modellnotation / Formalismus in einem Artikel oder Buch ausführlich beschrieben?

Wenn Sie diese Notation zum Schreiben von Modellen verwenden möchten, gibt es viele verschiedene Möglichkeiten, Dinge zu tun, und es wäre sehr nützlich, eine umfassende Anleitung zu verwenden, um anderen zu folgen und auf sie zu verweisen. Einige Unterschiede, die ich bei der Verwendung dieser Art von Notation festgestellt habe:

Wie nennt man Distributionen? ZB habe ich usw. gesehen. $\mathcal{N},\text{N},\text{Norm},\text{Normal}$
Wie gehen Sie mit Indizes um? ZB habe ich , , usw. $y_{ij}$ $y_{i[j]}$ $y_{j|i}$
$\mu$

Folgefrage: Hat diese Notation einen Namen? (In Ermangelung eines besseren Namens nannte ich es die Wahrscheinlichkeitsverteilungs-zentrierte Konvention in einem Blog-Beitrag, den ich schrieb ...)

references model notation Rasmus Bååth
quelle

Einige empfohlene Standards für die statistische Notation sind in Halperin, Hartley und Hoel (1965) sowie Sanders und Pugh (1972) dargestellt . Der größte Teil der aktuellen Notation stammt aus Konventionen, die von den biometrischen Statistikern im späten 19. und frühen 20. Jahrhundert festgelegt wurden (der größte Teil wurde von Pearson und Fisher und ihren Mitarbeitern durchgeführt). Eine nützliche Liste der frühen Nutzung der Notation wird von dem Ökonomen John Aldrich erhält hier , und eine historische Darstellung der englischen biometrischen Schule ist in der veröffentlichten Aldrich (2003) . (Wenn Sie weitere Fragen zu diesem Thema haben, ist Aldrich wahrscheinlich der weltweit führende lebende Experte in der Geschichte der Notation in der Statistik.)

Abgesehen von dieser expliziten Arbeit gibt es viele Bücher, die Einführungen in das Fachgebiet geben, und diese achten darauf, die Notation in Übereinstimmung mit den üblichen Konventionen zu definieren und die Notation so zu definieren, wie sie ist. Es gibt viele bekannte Konventionen auf diesem Gebiet, die sich konsequent durch die Literatur ziehen, und Statistiker sind mit diesen durch die Praxis gut vertraut, auch ohne die Empfehlungen dieser Forscher gelesen zu haben.

Mehrdeutigkeit der verteilungszentrierten Notation: Die Verwendung der "verteilungszentrierten" Notation ist eine Standardkonvention, die in der gesamten statistischen Literatur verwendet wird. Eine interessante Sache, auf die man bei dieser Notation hinweisen sollte, ist jedoch, dass es ein wenig Spielraum gibt, was sie tatsächlich bedeutet. Die Standardkonvention besteht darin, das Objekt auf der rechten Seite dieser Aussagen als eine Art Beschreibung eines Wahrscheinlichkeitsmaßes (z. B. einer Verteilungsfunktion, einer Dichtefunktion usw.) zu lesen und dann das lesen $\sim$ Beziehung mit der Bedeutung "... hat Verteilung ..." oder "... hat Wahrscheinlichkeitsmaß ..." usw. Bei dieser Interpretation vergleicht die Beziehung zwei verschiedene Mengen von Dingen; Das Objekt auf der linken Seite ist eine Zufallsvariable und das Objekt auf der rechten Seite ist eine Beschreibung eines Wahrscheinlichkeitsmaßes.

$\sim$

Dies gibt zwei mögliche (und gleichermaßen gültige) Interpretationen einer Aussage wie:

X \sim N (μ, σ^{2}) .

$X \sim \text{N}(\mu, \sigma^2).$

$X$ $\text{N}(\mu, \sigma^2)$
$X$ $\text{N}(\mu, \sigma^2)$

$\sim$ $\sim$

Aldrich, J. (2003) Die Sprache der English Biometric School International Statistical Review 71 (1) , S. 109-131.

Halperin, M., Hartley, HO und Hoel, PG (1965) Empfohlene Standards für statistische Symbole und Notation . The American Statistician 19 (3) , S. 12-14.

Sanders, JR und Pugh, RC (1972) Empfehlung für einen Standardsatz statistischer Symbole und Notationen . Bildungsforscher 1 (11) , S. 15-16.

Ben - Monica wieder einsetzen
quelle

Gibt es einen „Standard“ für die statistische Modellnotation?

Antworten: