Übersetzen Sie Rs glm-Befehl in mathematische Notation

Für eine binäre logistische Regression, den üblichen Anwendungsfall für das binomische GLM mit einem Logit-Link, modellieren Sie die Wahrscheinlichkeit, dass Ihre abhängige Variable ein "Erfolg" (oder "Ja") ist, der üblicherweise als codiert wird . Die Art und Weise, wie Sie dies tun, besteht darin, die Protokollquoten zu modellieren. Anstatt den Mittelwert der Antwort wie in OLS zu modellieren, modellieren Sie die Änderung der Protokollquoten: $1$

Pr (y = 1) = θ = {logit}^{- 1} (β_{0} + β_{1} x_{1} + β_{2} x_{2} + . . . + β_{7} x_{7})

$\Pr(y=1)=\theta=\text{logit}^{-1}(\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_7x_7)$

Wobei und . $\text{logit}(x)=\log(\frac{x}{1-x})$ $\text{logit}^{-1}(x)=\frac{\exp(x)}{1+\exp(x)}$

Eine gründlichere, sehr verständliche Erklärung hierfür findet sich in Agresti, Eine Einführung in die kategoriale Datenanalyse.

Zu Ihrer speziellen Frage geben Sie jedoch an, dass Sie den Anteil der Erfolge modellieren . Dies ist eigentlich nicht das, wofür ein Binomial-GLM verwendet wird. Was Sie jedoch wirklich suchen, ist das, was ein Binomial-GLM tut und in R immer noch möglich ist. Es erfordert nur eine geringfügige Änderung Ihrer Arbeit. In dem Fall, dass Sie eine endliche Anzahl von Versuchen haben, die Erfolge haben können, können Sie immer noch dasselbe Modell verwenden, das die Dichte Da Ihre Werte durch das experimentelle Design festgelegt sind und Ihre beobachteten Erfolge sind, führen Sie eine Inferenz auf den Parameter durch $n$ $y \in \{0...n\}$

Pr (y) \sim (\binom{n}{y}) θ^{y} (1 - θ)^{n - y}

$\Pr(y) \sim \binom{n}{y}\theta^y(1-\theta)^{n-y}$

n

$n$

y

$y$

θ

$\theta$ auf die gleiche Weise wie der typischere binäre Antwortfall (oben), in dem auf 1 festgelegt ist, nimmt mit der Wahrscheinlichkeit den Wert 1 an und ist eine Funktion Ihrer Parameter. Für den Fall des Logit-Links modellieren wir dann , hauptsächlich weil dieses transformierte auf der gesamten realen Linie existiert und nicht auf dem Einheitsintervall . (Andere wünschenswerte Eigenschaften der Logit-Verknüpfung sind in Agresti beschrieben, einschließlich der Gültigkeit der Koeffizienten, selbst in Einstellungen, in denen nicht zufällige Stichproben wie Fall-Kontroll-Designs verwendet werden. Dies ist beispielsweise bei Probit-Verknüpfungsfunktionen nicht der Fall.)

n

$n$

y

$y$

θ

$\theta$

θ

$\theta$

logit (θ) = β_{0} + β_{1} x_{1} + . . . + β_{i} x_{i}

$\text{logit}(\theta)=\beta_0+\beta_1x_1+...+\beta_ix_i$

θ

$\theta$

Erstellen Sie in Bezug auf R einfach ein Objekt (das Sie bezeichnen glmDV), das eine zweispaltige Matrix ist, wobei die erste Spalte die Anzahl der Erfolge und die zweite die Gesamtzahl der Fehler . Der Rest der Aussage bleibt gleich! $y$ $n-y$

Sycorax sagt Reinstate Monica
quelle

Diese Kreuzvalidierung war sehr hilfreich. Ich werde Agresti in der Bibliothek auschecken. Danke für deine Hilfe.

user2205916

@Sycorax oder @ user2205916, insbesondere wie übergeben Sie die "2-Spalten-Matrix" mit der Anzahl der Erfolge und Misserfolge an R und wie nutzt R dies? Ich bin mit der Verwendung von vertraut glmund akzeptiere meines Wissens nur eine Antwortvariable mit einer Spalte, nicht zwei Spalten. Bitte korrigieren Sie mich, wenn ich falsch liege, und zitieren Sie nach Möglichkeit relevante Unterlagen. Vielen Dank!

Clarpaul

@clarpaul stat.ethz.ch/R-manual/R-patched/library/stats/html/glm.html Erster Absatz von "Details" in der glmDokumentation. Eine gute Möglichkeit, die Funktionsweise von R-Funktionen kennenzulernen, besteht darin, den Funktionsnamen bei Google einzugeben. Dadurch wird normalerweise die entsprechende Dokumentation angezeigt. Sie können auch ?glmeine R-Konsole

eingeben

@Sycorax, danke, dass du das für mich nachgeschlagen hast. Ich habe es gestern in die Praxis umgesetzt und es schien zu funktionieren!

Clarpaul

Übersetzen Sie Rs glm-Befehl in mathematische Notation

Antworten: