Ist es akzeptabel, zwei lineare Modelle mit demselben Datensatz auszuführen?

10

Ist es für eine lineare Regression mit mehreren Gruppen (natürliche Gruppen, die a priori definiert wurden) akzeptabel, zwei verschiedene Modelle mit demselben Datensatz auszuführen, um die folgenden zwei Fragen zu beantworten?

  1. Hat jede Gruppe eine Steigung ungleich Null und einen Achsenabschnitt ungleich Null und welche Parameter gibt es für jede Gruppe innerhalb der Gruppenregression?

  2. Gibt es unabhängig von der Gruppenmitgliedschaft einen Nicht-Null-Trend und einen Nicht-Null-Achsenabschnitt und welche Parameter gibt es für die gruppenübergreifende Regression?

In R wäre das erste Modell lm(y ~ group + x:group - 1), so dass die geschätzten Koeffizienten direkt als Achsenabschnitt und Steigung für jede Gruppe interpretiert werden könnten. Das zweite Modell wäre lm(y ~ x + 1).

Die Alternative wäre lm(y ~ x + group + x:group + 1), was zu einer komplizierten Übersichtstabelle von Koeffizienten führt, wobei innerhalb der Gruppe Steigungen und Abschnitte aus den Unterschieden in Steigungen und Abschnitten aus einer Referenz berechnet werden müssen. Außerdem müssen Sie die Gruppen neu anordnen und das Modell ohnehin ein zweites Mal ausführen, um (manchmal) einen p-Wert für die letzte Gruppendifferenz zu erhalten.

Beeinflusst die Verwendung von zwei getrennten Modellen die Inferenz in irgendeiner Weise oder diese Standardpraxis?

Um dies in einen Zusammenhang zu bringen, betrachten Sie x als Medikamentendosis und die Gruppen als verschiedene Rassen. Es kann interessant sein, die Dosis-Wirkungs-Beziehung für eine bestimmte Rasse für einen Arzt zu kennen oder für welche Rassen das Medikament überhaupt wirkt, aber es kann manchmal auch interessant sein, die Dosis-Wirkungs-Beziehung für die gesamte (menschliche) Bevölkerung zu kennen unabhängig von der Rasse für einen Beamten des öffentlichen Gesundheitswesens. Dies ist nur ein Beispiel dafür, wie man sich sowohl innerhalb einer Gruppe als auch zwischen Gruppenregressionen getrennt interessieren könnte. Ob eine Dosis-Wirkungs-Beziehung linear sein sollte, ist nicht wichtig.

Jdub
quelle
Sind Sie sicher, dass Sie lineare Regressionen verwenden möchten? Dosis-Wirkungs-Beziehungen sind über einen wesentlichen Dosisbereich fast nie linear.
Michael Lew
@ Michael, sorry, das war eine schlechte Wahl, denke ich. Ich wundere mich darüber im Allgemeinen. Die Einzelheiten der Dosis-Wirkungs-Beziehungen sollten nicht im Wege stehen. Ich habe die Frage bearbeitet, um dies zu notieren.
Jdub
Haben Sie ein zufälliges Intercept-Modell mit zufälliger Steigung in Betracht gezogen?
normal

Antworten:

2

-1+0lm(y ~ group + x:group - 1) +1GG- -1X.zeigt an, ob sich die Steigung der Standardgruppe erheblich von 0 unterscheidet, und die Interaktionsterme zeigen an, ob sich die Steigungen dieser Gruppen von den Standardgruppen unterscheiden. Tests für die Steigungen der anderen Gruppen gegen 0 können genauso wie für die Abschnitte konstruiert werden. Noch besser wäre es, einfach ein 'eingeschränktes' Modell ohne eine der Gruppenindikatorvariablen oder die Interaktionsterme anzupassen und dieses Modell mit dem vollständigen Modell mit zu testen anova(), um festzustellen, ob sich Ihre Gruppen überhaupt signifikant unterscheiden.

Nachdem diese Dinge gesagt wurden, ist Ihre Hauptfrage, ob dies alles akzeptabel ist . Das zugrunde liegende Problem ist hier das Problem mehrerer Vergleiche . Dies ist ein langjähriges und heikles Thema mit vielen Meinungen. (Weitere Informationen zu diesem Thema finden Sie im Lebenslauf, indem Sie die mit diesem Schlüsselwort gekennzeichneten Fragen lesen .) Obwohl die Meinungen zu diesem Thema sicherlich unterschiedlich waren, würde Ihnen wohl niemand etwas vorwerfen , wenn Sie viele Analysen über denselben Datensatz durchführen, vorausgesetzt, die Analysen waren orthogonal . Im Allgemeinen werden orthogonale Kontraste im Zusammenhang mit der Frage betrachtet, wie eine Menge von verglichen werden kannGG

nG=0n

Ich würde vorschlagen, dass Sie das oben beschriebene Protokoll befolgen. Dummy-Code für Ihre Gruppen. Passen Sie dann ein vollständiges Modell mit allen enthaltenen Dummies und Interaktionstermen an. Passen Sie ein reduziertes Modell ohne diese Begriffe an und führen Sie einen Test für verschachtelte Modelle durch. Wenn sich die Gruppen irgendwie unterscheiden, folgen Sie (hoffentlich) a-priori (theoretisch gesteuerten) orthogonalen Kontrasten, um besser zu verstehen, wie sich die Gruppen unterscheiden. (Und Handlung - immer, immer Handlung.)

gung - Monica wieder einsetzen
quelle