Ist eine Schlussfolgerung auf der Grundlage eines vollständigen Modells angemessen und wenn ja, unter welchen Umständen?
Angenommen, Sie interessieren sich für die mögliche Beziehung zwischen einer Antwortvariablen und mehreren Kandidaten-Prädiktorvariablen und verwenden eine Form der Regression (z. B. ein verallgemeinertes lineares Modell), um dies zu beantworten. Ein Ansatz, um zu schließen, welche Prädiktoren "wichtig" sind oder eine scheinbar echte Beziehung zur Antwort haben, wäre ein auf Informationstheorien (z. B. AIC) basierender Modellvergleich. Obwohl Variablen, die im endgültigen Modell nicht beibehalten werden, möglicherweise eine Beziehung zur Antwort haben, liefern sie im Wesentlichen keine zusätzlichen wesentlichen Informationen, da andere Prädiktoren im Modell beibehalten werden.
Gibt es einen Fall, in dem es angemessener wäre, einfach ein vollständiges (globales) Modell (mit allen Kandidaten-Prädiktoren) anzupassen, dort anzuhalten und Rückschlüsse auf einzelne Prädiktoren ausschließlich auf die t-Statistiken (oder andere Statistiken) und p-Werte zu stützen in diesem Vollmodell ohne weitere Modellauswahl?
Ich bin auf Vorschläge gestoßen (z. B. Whittingham et al. "Warum verwenden wir immer noch schrittweise Modellierung in Ökologie und Verhalten?" (2006), dass dies eine sinnvolle Sache sein könnte, wenn auch mit möglichen Nachteilen. Die Autoren sagen, dass geschätzte Parameter sind unvoreingenommen, aber andere Quellen sagen, dass diese Schätzungen und p-Werte nicht vertrauenswürdig sind, da andere ("nicht wichtige") Variablen im Modell sie beeinflussen können.
Wenn das Ziel darin besteht, mögliche biologische Zusammenhänge zu verstehen, welche Methode wäre besser geeignet?
Antworten:
Alles hängt von Ihren Studienzielen ab:
A) Explorative Studie : Ihr Ziel ist es, eine Reihe potenziell interessanter Prädiktoren auf Beziehungen zu untersuchen. Sie möchten ein testbares Modell erstellen, das auf diesen Erkundungsergebnissen basiert. Aus der Studie werden keine Schlussfolgerungen (im Sinne einer Nullhypothese-Signifikanzprüfung) oder andere wichtige Entscheidungen gezogen. Die Studie ist ein Pilotprojekt und wird von einer weiteren bestätigenden / vorgegebenen Studie gefolgt. In diesem Fall sind Modellauswahlverfahren (unter Verwendung von AIC-, BIC- oder Kreuzvalidierungstechniken) Ihre bevorzugten Methoden. Die von Ihnen zitierte Referenz ist richtig: Die p-Werte, die für die Prädiktoren im endgültigen Modell erhalten wurden, sind zu optimistisch: Indem Sie im Wesentlichen viele verschiedene Modelle bei der Modellauswahl ausprobiert haben, haben Sie ein Problem mit mehreren Vergleichen geschaffen - "den Garten der Gabelpfade".. Herkömmliche statistische Tests liefern nur p-Werte für das aktuelle Modell und keine Kontrolle für diese Mehrfachvergleiche.
B) Bestätigungsstudie / "vorab festgelegte" Studie: In diesem Fall sollten Sie idealerweise ein einzelnes Modell testen - das vor der Durchführung der Studie vorab festgelegte. Wenn Sie vor Beginn der Studie guten Grund zu der Annahme hatten, dass alle Ihre Prädiktoren eine Wirkung haben, ist das vollständige Modell eine natürliche Wahl. Wenn Sie einige Prädiktoren für den bloßen Verdacht einbezogen haben, haben Sie wahrscheinlich eine explorative Studie durchgeführt.
"Nicht wichtige" Variablen, dh Variablen, die nicht viel Varianz in der Ergebnisvariablen erklären, üben nur dann einen unangemessenen Einfluss auf Ihre Daten aus, wenn Sie zu viele Prädiktoren im Verhältnis zu Ihrer Stichprobengröße haben (Überanpassung) oder wenn es Prädiktoren gibt, die hoch sind korreliert (kollinear). Idealerweise vermeiden Sie diese Situationen, indem Sie eine Sondierungsstudie durchführen.
Eine Möglichkeit, nach Überanpassungen / instabilen Modellproblemen zu suchen, besteht darin, ein "reduziertes Modell" zu untersuchen, das nur "signifikante" Begriffe aus dem Hauptmodell enthält. Wichtig ist, dass diese reduzierte Modellanalyse als Post-hoc-Kontrollanalyse zur Unterstützung der Interpretation bezeichnet werden sollte. Die Schlussfolgerungen sollten ausschließlich auf dem vorgegebenen Modell basieren.
quelle