Gutachter, der meine Statistiken hinterfragt, benötigen eine zweite Meinung (multiple lineare Regression)

8

Ich habe gerade Rezensionen für meinen ersten Artikel erhalten und einer der Rezensenten stellt meine Statistiken in Frage und er hat mich daran zweifeln lassen. Ich habe auf reddit gekreuzt und ein Redditor hat mir vorgeschlagen, hier eine zweite Meinung einzuholen ( http://tinyurl.com/pqzt ).

Hier ist ein kurzer Überblick über meine Studie: 150 Patienten. Ich war daran interessiert, wie gut die Exposition gegenüber einem bestimmten Toxin (Haupt-IV, Prädiktor) die Ergebnisse auf einem klinischen Fragebogen (DV) vorhersagen kann. Ich verwendete ein standardmäßiges lineares Regressionsmodell ("Enter" -Methode) und schloss andere Prädiktoren ein, von denen bekannt ist, dass sie die Ergebnisse meiner DV beeinflussen (Alter, Bildung, Krankheitsdauer und motorische Behinderung). Alle Variablen sind kontinuierlich. Ich habe festgestellt, dass mein Modell signifikant ist, ebenso wie mein Hauptprädiktor (Toxinexposition), zusammen mit Alter und Bildung. Es gibt kein Kolinearitätsproblem gemäß dem VIF-Index. Wenn das hilft, hier das Histogramm und die Diagramme der Residuen: http://imgur.com/vsb

Ein Gutachter stellt mein Regressionsmodell in Frage, weil er sagt, dass mein Modell nur für diejenigen geeignet ist, die dem Toxin ausgesetzt waren (ungefähr 80), da etwa 70 von 150 Personen einen Expositionswert von 0 hatten (nicht exponiert). Mein Verständnis des Regressionsmodells und der Anzahl der Freiheitsgrade in der ANOVA-Tabelle (140ish) lässt mich denken, dass er falsch liegt. Er sagte auch, dass die vorläufigen Korrelationen, zwischen denen ich lief, nicht für die gesamte Stichprobe geeignet waren, da 70 Personen einen Expositionswert von „0“ hatten, obwohl ich die gesamte Stichprobe für die Analyse verwendet habe.

Ich habe mit meinen Daten herumgespielt, um das Problem besser zu verstehen. Als ich das gleiche Regressionsmodell (Enter-Methode) nur für diejenigen mit Exposition (n = 80) durchführte, blieb mein Prädiktor "Toxin" hinter der Signifikanz zurück. Ich glaube, der Mangel an statistischer Aussagekraft könnte daran schuld sein (6 Prädiktoren mit einem „n“ von 80 und kombiniert mit der „schwachen“ Effektgröße). Dann ging ich zurück zur gesamten Probe und fügte eine dichotome Variable (belichtet oder nicht belichtet) hinzu, aber weder der Belichtungsstatus (ja oder nein) noch die Gesamtexposition (Skala von 0 bis 100) waren bei der „Enter-Methode“ signifikant. (alle Variablen gleichzeitig eingegeben). Unter Verwendung einer schrittweisen Methode war die Variable des Toxinexpositionsniveaus (Hauptprädiktor) nun wieder signifikant.

Können Sie mir bitte bestätigen, dass ich richtig / falsch bin, und haben Sie Ratschläge, wie Sie dies an den Herausgeber / Rezensenten schreiben können, damit mein Beitrag in der zweiten Runde nicht abgelehnt wird? Vielen Dank!

Nightale
quelle
4
Nebenbei bemerkt - die Probleme mit der schrittweisen Regression sind recht gut dokumentiert (siehe stats.stackexchange.com/questions/20836/… ). Die p-Werte, die aus der schrittweisen Regression hervorgehen, müssen korrigiert werden - verlassen Sie sich nicht auf sie zum Nennwert.
NickB2014
Ich denke, Ihr Rezensent versteht die lineare Regression nicht.
Deep North
Da jedes dem Menschen bekannte Molekül mit ziemlicher Sicherheit in fast jedem Körper vorhanden ist, können Sie die Null-Exposition durch zufällig ausgewählte Werte innerhalb eines kleinen Intervalls ersetzen, z. B. mol / kg und Wiederhole die Analyse :-). Wenn das nicht überzeugend genug ist, wiederholen Sie dies einige hundert Mal für eine Sensitivitätsstudie (ich hoffe, hier werden keine Emoticons mehr benötigt). Es wäre biologisch realistischer und würde die statistischen Einwände des Prüfers zerstören (sofern sie von "keiner Exposition" abhängen und Personen mit derselben Exposition haben). (1025,1024)70
whuber
2
Wäre es möglich, Ihrer Frage ein Regressionsdiagramm der klinischen Scores ~ Toxine hinzuzufügen?
Ruthger Righart
2
Die angegebenen Links funktionieren zumindest bei mir nicht!
Gavin M. Jones

Antworten:

8

Wenn Sie der Meinung sind, dass die Auswirkung der Exposition bei einer Exposition (Toxinspiegel) von Null eine Diskontinuität aufweist, können Sie eine allgemeinere Hypothese mit mindestens 2 Prädiktoren testen: einem Indikator für Toxin> 0 und so etwas wie log (Toxin + 1) ). Der 2-df-Chunk-Test für die kombinierten Wirkungen dieser beiden Prädiktoren testet die Nullhypothese, dass der Toxinspiegel mit dem Ergebnis verbunden ist, was eine Diskontinuität bei Null ermöglicht. Sie können den Chunk-Test mit einem allgemeinen Kontrast zu 2 df erhalten oder indem Sie beide Variablen weglassen und den Test "Differenz in " durchführen.R2

Der Prüfer ist falsch.

Es ist sehr wichtig sicherzustellen, dass Sie das richtige Modell für die Bewertung des klinischen Ergebnisses ausgewählt haben. Sie gehen davon aus, dass die Punktzahl eine kontinuierliche Variable ohne eine große Anzahl von Bindungen ist und dass die Residuen aus dem Modell eine Gaußsche Verteilung haben.

Vermeiden Sie das Entfernen von Variablen auf der Basis von Werten.P

Frank Harrell
quelle
6

Es wäre wichtig, (1) die Regressionsdiagramme der Beziehung zwischen Toxin und klinischem Score zu sehen und (2) genauer zu wissen, woraus Ihre experimentelle Behandlung bestand. Ich habe in R ein stark vereinfachtes Datenbeispiel erstellt, um das Problem zu veranschaulichen.

Datenbeispiel:

data1<-data.frame(tox=c(0,0,0,0,0,0,0,0,0,1,1,1,2,2,2,3,3,3), clin=c(10,10,10,10,10,10,10,10,10,20,30,40,20,30,40,20,30,40))
model1<-lm(data1$clin ~ data1$tox)

data2<-data.frame(tox=c(1,1,1,2,2,2,3,3,3), clin=c(20,30,40,20,30,40,20,30,40))
model2<-lm(data2$clin ~ data2$tox)

par(mfrow=c(1,2))
plot(data1$clin ~ data1$tox, xlim=c(0,4), ylim=c(0,40), xlab="toxin", ylab="clinical score")
abline(model1, col="blue")
plot(data2$clin ~ data2$tox, xlim=c(0,4), ylim=c(0,40), xlab="toxin", ylab="clinical score")
abline(model2, col="yellow")

Geben Sie hier die Bildbeschreibung ein

Modell 1 würde ein signifikantes Regressionsmodell zeigen. Der Effekt kann jedoch vollständig verschwinden, wenn wir die klinischen Scores bei tox = 0-Werten entfernen, wie in Modell 2 gezeigt. Es ist wichtig zu wissen, wie das Streudiagramm der Daten aussieht, wenn Sie tox = 0 entfernt haben. In diesem Fall ist es kaum zu glauben, dass es einen linearen (oder höheren) Zusammenhang zwischen der Toxindosis und den klinischen Ergebnissen gibt.

Es kann sich jedoch dennoch lohnen, einen Gruppenvergleich durchzuführen, bei dem kein Toxin (tox = 0) mit dem Toxin (tox> 0) verglichen wird. Aus methodischer Sicht wäre es wichtig zu wissen, was tox = 0 wirklich bedeutet. Welche Art von Behandlung erhielten Patienten bei tox = 0 und tox> 0? Wenn eine Placebo-Behandlung angewendet wurde (dh der einzige Unterschied besteht darin, dass Tox> 0 wirklich ein Toxin erhielt und Tox = 0 etwas Falsches erhielt), kann ein einfacher Gruppenvergleich weiterhin gültig sein, um die Wirkung von Nicht-Toxin gegen Toxin zu testen.

Ruthger Righart
quelle
1

Versuchen Sie, Ihre Toxinexposition in einen kategorialen Prädiktor umzuwandeln und dasselbe Modell auszuführen. Und wenn die IV immer noch signifikant ist, führen Sie ein reduziertes Modell mit nur den signifikanten Prädiktoren (Toxinexposition, zusammen mit Alter und Bildung) als kontinuierlichen Prädiktor für die 80 Teilnehmer durch, die dem Toxin ausgesetzt waren.

Ich denke, Ihr Rezensent hat ein berechtigtes Anliegen der 70 nicht exponierten Teilnehmer. Alternativ können Sie zufällig einen Teilnehmer aus Ihren 70 Nichtbelichtungen auswählen und versuchen, dasselbe Modell auszuführen.

Junpeng Lao
quelle