Ratios in Regression, aka Fragen zu Kronmal

14

Kürzlich löste das zufällige Durchsuchen von Fragen eine Erinnerung an einen Kommentar eines meiner Professoren aus, der vor einigen Jahren vor der Verwendung von Ratios in Regressionsmodellen gewarnt hatte. Also fing ich an darüber zu lesen, was schließlich 1993 zu Kronmal führte.

Ich möchte sicherstellen, dass ich seine Vorschläge zur Modellierung richtig interpretiere.

  1. Für ein Modell mit einem Verhältnis mit demselben Nenner auf der abhängigen und der unabhängigen Seite:
    Z-1Y.=Z-11nβ0+Z-1XβX+βZ+Z-1ϵ

    • Regressabhängiges Verhältnis von der (inversen) Nennervariablen zusätzlich zu den anderen Verhältnissen
    • Gewichtung durch die (inverse) Nennervariable
  2. Für ein Modell mit abhängiger Variable als Verhältnis:
    Y.=β0+βXX+Z1nα0+ZXαX+Z-1ϵ

    • Zähler nach Originalvariablen, Nenner und Nenner mal Originalvariablen neu berechnen [Was ist mit kategorialen Variablen?]
    • Gewicht durch (inversen) Nenner
  3. Für ein Modell mit nur unabhängigen variablen Verhältnissen: Y.=β0+XβX+Z-11nβZ-1+WβW+Z-1WβZ-1W+ϵ

    • Zähler und (inverser) Nenner als Haupteffekte einbeziehen, Verhältnis als Interaktionsterm.

Sind meine Interpretationen hier richtig?

Affine
quelle

Antworten:

1

Sie hätten wirklich auf das Kronmal-Papier verweisen sollen (und Ihre Notation erklärt, die direkt aus dem Papier stammt). Ihre Lesart des Papiers ist zu wörtlich. Insbesondere gibt er keine Ratschläge zur Gewichtung, sondern sagt, dass die Gewichtung auf die üblichen Arten erfolgen kann, sodass keine Diskussion erforderlich ist. Es wird nur als Möglichkeit erwähnt. Lesen Sie Ihre Fälle eher als Beispiele, insbesondere als Beispiele für die Analyse solcher Situationen.

In Abschnitt 6 gibt er einige allgemeine Ratschläge, die ich hier zitieren werde:

Die Botschaft dieses Papiers ist, dass Verhältnisvariablen nur im Kontext eines vollständigen linearen Modells verwendet werden sollten, in dem die Variablen, aus denen das Verhältnis besteht, enthalten sind und der Intercept-Term ebenfalls vorhanden ist. Die übliche Praxis der Verwendung von Verhältnissen für die abhängige oder die unabhängige Variable in der Regressionsanalyse kann zu irreführenden Schlussfolgerungen führen und führt selten zu einem Gewinn. Diese Praxis ist jedoch weit verbreitet und fest verankert, und es kann schwierig sein, einige Forscher davon zu überzeugen, dass sie auf ihre am meisten geschätzte Quote oder ihren Index verzichten sollten.

Die Arbeit verwendet das (fiktive) Beispiel von Neyman zu Geburten und Störchen. Um mit diesem Beispiel zu spielen, können Sie über R darauf zugreifen

data(stork, package="TeachingDemos")

Ich überlasse den Spaß den Lesern, aber eine interessante Handlung ist die folgende coplot:

Konditionierungsplan für das Beispiel der Neyman-Störche

kjetil b halvorsen
quelle