Ist eine auf einem vollständigen (globalen) Regressionsmodell basierende Inferenz angemessen?

Ist eine Schlussfolgerung auf der Grundlage eines vollständigen Modells angemessen und wenn ja, unter welchen Umständen?

Angenommen, Sie interessieren sich für die mögliche Beziehung zwischen einer Antwortvariablen und mehreren Kandidaten-Prädiktorvariablen und verwenden eine Form der Regression (z. B. ein verallgemeinertes lineares Modell), um dies zu beantworten. Ein Ansatz, um zu schließen, welche Prädiktoren "wichtig" sind oder eine scheinbar echte Beziehung zur Antwort haben, wäre ein auf Informationstheorien (z. B. AIC) basierender Modellvergleich. Obwohl Variablen, die im endgültigen Modell nicht beibehalten werden, möglicherweise eine Beziehung zur Antwort haben, liefern sie im Wesentlichen keine zusätzlichen wesentlichen Informationen, da andere Prädiktoren im Modell beibehalten werden.

Gibt es einen Fall, in dem es angemessener wäre, einfach ein vollständiges (globales) Modell (mit allen Kandidaten-Prädiktoren) anzupassen, dort anzuhalten und Rückschlüsse auf einzelne Prädiktoren ausschließlich auf die t-Statistiken (oder andere Statistiken) und p-Werte zu stützen in diesem Vollmodell ohne weitere Modellauswahl?

Ich bin auf Vorschläge gestoßen (z. B. Whittingham et al. "Warum verwenden wir immer noch schrittweise Modellierung in Ökologie und Verhalten?" (2006), dass dies eine sinnvolle Sache sein könnte, wenn auch mit möglichen Nachteilen. Die Autoren sagen, dass geschätzte Parameter sind unvoreingenommen, aber andere Quellen sagen, dass diese Schätzungen und p-Werte nicht vertrauenswürdig sind, da andere ("nicht wichtige") Variablen im Modell sie beeinflussen können.

Wenn das Ziel darin besteht, mögliche biologische Zusammenhänge zu verstehen, welche Methode wäre besser geeignet?

regression generalized-linear-model model-selection inference explanatory-models Tilen
quelle

Bitte geben Sie die "anderen Quellen" an, um die Antwort unten zu verbessern.

Mzunhammer

@mzunhammer, ich wollte das zuerst tun, konnte diese Quellen aber nicht wieder aufspüren. Ich kann mich nicht erinnern, in welcher Zeitung ich das gelesen habe und konnte es noch nicht finden. :) Werde aber weiter suchen.

Tilen

Alles hängt von Ihren Studienzielen ab:

A) Explorative Studie : Ihr Ziel ist es, eine Reihe potenziell interessanter Prädiktoren auf Beziehungen zu untersuchen. Sie möchten ein testbares Modell erstellen, das auf diesen Erkundungsergebnissen basiert. Aus der Studie werden keine Schlussfolgerungen (im Sinne einer Nullhypothese-Signifikanzprüfung) oder andere wichtige Entscheidungen gezogen. Die Studie ist ein Pilotprojekt und wird von einer weiteren bestätigenden / vorgegebenen Studie gefolgt. In diesem Fall sind Modellauswahlverfahren (unter Verwendung von AIC-, BIC- oder Kreuzvalidierungstechniken) Ihre bevorzugten Methoden. Die von Ihnen zitierte Referenz ist richtig: Die p-Werte, die für die Prädiktoren im endgültigen Modell erhalten wurden, sind zu optimistisch: Indem Sie im Wesentlichen viele verschiedene Modelle bei der Modellauswahl ausprobiert haben, haben Sie ein Problem mit mehreren Vergleichen geschaffen - "den Garten der Gabelpfade".. Herkömmliche statistische Tests liefern nur p-Werte für das aktuelle Modell und keine Kontrolle für diese Mehrfachvergleiche.

B) Bestätigungsstudie / "vorab festgelegte" Studie: In diesem Fall sollten Sie idealerweise ein einzelnes Modell testen - das vor der Durchführung der Studie vorab festgelegte. Wenn Sie vor Beginn der Studie guten Grund zu der Annahme hatten, dass alle Ihre Prädiktoren eine Wirkung haben, ist das vollständige Modell eine natürliche Wahl. Wenn Sie einige Prädiktoren für den bloßen Verdacht einbezogen haben, haben Sie wahrscheinlich eine explorative Studie durchgeführt.

"Nicht wichtige" Variablen, dh Variablen, die nicht viel Varianz in der Ergebnisvariablen erklären, üben nur dann einen unangemessenen Einfluss auf Ihre Daten aus, wenn Sie zu viele Prädiktoren im Verhältnis zu Ihrer Stichprobengröße haben (Überanpassung) oder wenn es Prädiktoren gibt, die hoch sind korreliert (kollinear). Idealerweise vermeiden Sie diese Situationen, indem Sie eine Sondierungsstudie durchführen.

Eine Möglichkeit, nach Überanpassungen / instabilen Modellproblemen zu suchen, besteht darin, ein "reduziertes Modell" zu untersuchen, das nur "signifikante" Begriffe aus dem Hauptmodell enthält. Wichtig ist, dass diese reduzierte Modellanalyse als Post-hoc-Kontrollanalyse zur Unterstützung der Interpretation bezeichnet werden sollte. Die Schlussfolgerungen sollten ausschließlich auf dem vorgegebenen Modell basieren.

mzunhammer
quelle

danke, das ist sehr nützlich. In Bezug auf Ihren letzten Punkt, auf den Sie Ihren Vergleich stützen würden, wenn Sie das vollständige und dieses reduzierte Modell (mit nur "signifikanten" Begriffen) angepasst hätten?

Tilen

Meine Realität (in der Biologie) ist, dass es oft eine Art Kombination dieser beiden Punkte gibt. Wir versuchen oft, Beziehungen in der Natur abzuleiten, versuchen aber gleichzeitig, Vorhersagen treffen zu können (wenn auch auf explorative Weise).

Tilen

Zu Ihrer ersten Frage: Was meinen Sie mit Vergleich? Wie oben erwähnt, müssen alle Schlussfolgerungen auf dem vorgegebenen Modell basieren. Zur zweiten Frage: Das Mischen von Exploration und Inferenz wird auch als "Guesstimation" bezeichnet und führt Sie zu unzuverlässigen Ergebnissen. Alles hängt von Ihren Zielen ab. Sie müssen sich selbst klar machen, ob Sie erforschen, Schlussfolgerungen ziehen oder Vorhersagen treffen möchten.

Mzunhammer

Sie sagten, dass "eine Möglichkeit zur Überprüfung auf überanpassende / instabile Modellprobleme darin besteht, ein" reduziertes Modell "zu untersuchen, das nur" signifikante "Begriffe aus dem Hauptmodell enthält." Wie erkunden Sie dieses reduzierte Modell? Ich dachte, du wolltest es irgendwie mit dem vollständigen vergleichen (deshalb habe ich einen Vergleich geschrieben). In Bezug auf den zweiten Punkt bin ich mir nicht sicher, ob ich den Unterschied zwischen dem Erforschen von Beziehungen und dem Schliessen von Schlussfolgerungen über diese Beziehungen vollständig verstehe ...

Tilen

Das Erstellen des reduzierten Modells ist der Erkundungsschritt. Sie sollten überprüfen, ob ein Faktor in der Hauptanalyse als signifikant angezeigt wird, im reduzierten Modell jedoch nicht. In diesem Fall sollten Sie überprüfen, warum. In Bezug auf die explorative vs. inferentielle Studie: Schauen Sie sich die oben genannten Referenzen an.

Mzunhammer

Ist eine auf einem vollständigen (globalen) Regressionsmodell basierende Inferenz angemessen?

Antworten: