Warum liefert glm () Schätzungen und Standardfehler auf der Link-Skala?

Sicher schwer zu wissen, aber es gibt einige Gründe, warum die Link-Skala nützlich ist.

Die Verwendung von Standardfehlern als Zusammenfassung der Unsicherheit ist auf der Verbindungsskala im Allgemeinen zuverlässiger, wenn der Bereich der Parameter unbegrenzt ist und die Annahme, dass die Wahrscheinlichkeitsfläche ungefähr quadratisch ist ( $\leftrightarrow$ Die Stichprobenverteilung der Parameterschätzungen ist ungefähr normal.) ist eher vernünftig. Angenommen, Sie haben ein Log-Link-Modell mit einer Schätzung (auf der Link-Skala) 1.0 und einem Standardfehler 3.0. Auf der Verbindungsskala beträgt das Konfidenzintervall ungefähr $1 \pm 1.96 \times 3$ . Wenn Sie eine Rücktransformation durchführen, den Parameter potenzieren und den Standardfehler mit dem potenzierten Parameter multiplizieren (wie in dieser Antwort ) und dann versuchen, symmetrische CIs zu erstellen, erhalten Sie $2.718 \pm 1.96 \times 3 \times 2.718$ , die negative Werte enthält ... Wenn Sie eine Rücktransformation durchführen möchten, ist es sinnvoller, die Konfidenzintervalle rücktransformiert zu haben , d. h $\exp(1 \pm 1.96 \times 3)$ .
Wahrscheinlich noch wichtiger ist, dass es für die sehr häufige Logit-Verknüpfung grundsätzlich unmöglich ist, die Parameter bis zur Datenskala (dh von Logit / Log-Odds-Verhältnissen zur Wahrscheinlichkeit) sinnvoll rücktransformiert zu machen. Es ist üblich, Parameter zu potenzieren, um von der Log-Odds-Ratio zur Odds-Ratio-Skala zu wechseln. Sie können jedoch nicht von Odds-Ratios zu Wahrscheinlichkeiten zurückkehren, ohne einen Basiswert anzugeben. Das heißt, Sie können im Allgemeinen sagen, "das mit Kontrolle vs. Behandlung verbundene Quotenverhältnis ist XXX", aber die Änderung der Wahrscheinlichkeit von Kontrolle zu Behandlung hängt von anderen Kovariaten ab (z. B. kann das Quotenverhältnis für Frauen und Männer gleich sein während die Änderung der Wahrscheinlichkeit unterschiedlich ist, da das Grundrisiko für Frauen und Männer unterschiedlich ist).

Wahrscheinlich liegt der proximale Grund darin, dass sich die meisten Leute, die viel statistische Modellierung durchführen, aufgrund der oben aufgeführten Probleme daran gewöhnt haben, Parameter auf der Link-Skala zu interpretieren. die meisten Epidemiologen und Biostatistikern müssen Zeit Lernen über Odds Ratios und Log-Odds Ratios, und es gibt viele verbringen Papiere geschrieben über ihre Interpretation. Ob gut oder schlecht, R wurde von Personen geschrieben, die Parameter auf der Link-Skala gut interpretieren können. Viele nachgelagerte Pakete wie Broom verfügen über Optionen, die Parameter und CIs für Sie potenzieren (indem Sie sie auf die Daten- (Zähl-) Skala für die Protokollverknüpfung, die Odds-Ratio-Skala für Logit-Links und die Hazard-Ratio-Skala für Cloglog-Links setzen). .

Ben Bolker
quelle

Danke vielmals. Ich brauche etwas Zeit, um Ihren zweiten Punkt zu verstehen (nicht aus Mangel an Klarheit von Ihrer Seite). In Bezug auf Ihren ersten Punkt klingelt es, als ein ehemaliger Kollege von mir mir einmal die Verwendung der Taylor-Erweiterung zur Untersuchung der Fehlerausbreitung erklärte. Warum liefert die Taylor-Erweiterung nicht die tatsächlichen Standardfehler? Liegt es daran, dass es sich um eine allgemeine Methode handelt, bei der situationsspezifische Annahmen fehlen (in diesem Fall sollte SE bei Zähldaten einen positiven CI erzeugen)?

Marco Plebani

Die Taylor-Erweiterung liefert vernünftige Standardfehler (obwohl [ich denke] sie nicht genau sind, wenn die Stichprobenverteilung höhere Momente ungleich Null aufweist), aber das Hauptproblem liegt nicht in den Standardfehlern, sondern in der Übersetzung von Standardfehlern nach CIs

Ben Bolker

Vielen Dank. Mir ist immer noch nicht klar, warum die Taylor-Expansion vernünftige Schätzungen der SE ergeben würde, aber diese könnten zu unangemessenen Schätzungen der CI führen. Außerdem habe ich verschiedene Methoden getestet, um Standard-Fehlerschätzungen zu erhalten, und das hat eine ganz neue Dose Würmer geöffnet. Ich habe eine Frage ad hoc erstellt: stats.stackexchange.com/questions/355431/… - Prost

Marco Plebani

Betrachten Sie eine extrem verzerrte Verteilung (z. B. eine Exponentialverteilung). Der theoretische Mittelwert und die Standardabweichung sind identisch (siehe z . B. Wikipedia . Die Untergrenze des 95% Wald-Konfidenzintervalls (dh die auf der Standardabweichung / Annahme der Normalität basierende) ist also immer negativ.

Ben Bolker

Warum liefert glm () Schätzungen und Standardfehler auf der Link-Skala?

Antworten: