Aus der modernen Epidemiologie 3. Auflage von Rothman, Grönland und Lash:
Es gibt mindestens drei Formen der Überanpassung. Der erste bezieht sich auf das Matching, das die statistische Effizienz beeinträchtigt, wie das Fall-Kontroll-Matching für eine Variable, die mit Exposition, aber nicht mit Krankheit verbunden ist. Der zweite bezieht sich auf ein Matching, das die Gültigkeit beeinträchtigt, wie das Matching auf einem Zwischenprodukt zwischen Exposition und Krankheit. Der dritte bezieht sich auf Matching, das die Kosteneffizienz beeinträchtigt.
Die Antwort von AndyW betrifft die zweite Form der Überanpassung. Kurz gesagt, so funktionieren sie alle:
1: Um ein Störfaktor zu sein, ist eines der Kriterien, dass die Kovariate sowohl mit dem Ergebnis als auch mit der Exposition assoziiert wird . Wenn es nur mit einem von ihnen verbunden ist, ist es kein Störfaktor, und alles, was Sie erfolgreich getan haben, ist, Ihr Konfidenzintervall zu verlängern.
Um diese Art der Überanpassung weiter zu untersuchen, betrachten Sie eine übereinstimmende Fall-Kontroll-Studie einer binären Exposition, wobei jeweils eine Kontrolle für einen oder mehrere Confounder auf jeden Fall abgestimmt ist. Jede Schicht in der Analyse besteht aus einem Fall und einer Kontrolle, sofern nicht einige Schichten kombiniert werden können. Wenn der Fall und seine übereinstimmende Kontrolle entweder beide belichtet oder beide nicht belichtet sind, ist ein Rand der 2 x 2-Tabelle 0 ... ein solches Probandenpaar trägt keine Informationen zur Analyse bei. Wenn man nach Korrelaten der Exposition schichtet, erhöht man die Wahrscheinlichkeit, dass solche Tabellen auftreten, und erhöht somit tendenziell den Informationsverlust bei der geschichteten Analyse.
2: Dies wird teilweise von AndyW diskutiert. Das Matching auf einen Zwischenfaktor beeinflusst Ihre Schätzung ebenso wie das Matching auf etwas, das sowohl von der Exposition als auch vom Ergebnis betroffen ist. Dies ist im Wesentlichen die Steuerung eines Colliders, und jede Technik, die dies tut, verzerrt Ihre Schätzung.
Wenn jedoch der potenzielle Anpassungsfaktor durch die Exposition beeinflusst wird und der Faktor wiederum die Krankheit beeinflusst (dh eine Zwischenvariable ist) oder sowohl durch die Exposition als auch durch die Krankheit beeinflusst wird, beeinflusst die Anpassung des Faktors sowohl den rohen als auch den angepassten Effekt Schätzungen. In diesen Situationen ist der Fall-Kontroll-Abgleich nichts anderes als eine irreparable Form der Auswahlverzerrung.
3: Dies ist eher ein Problem des Studiendesigns. Ein umfassender Abgleich von Variablen, mit denen Sie aus den Gründen 1 und 2 nicht übereinstimmen müssen, kann dazu führen, dass Sie leicht erhältliche Steuerelemente (Freunde, Familie, soziales Netzwerk in der Nähe usw.) ablehnen, und zwar zugunsten weitaus schwieriger zu beschaffender Steuerelemente, die mit dem übereinstimmen können unnötige Menge von Kovariaten. Das kostet Geld - Geld, das für mehr Themen, eine bessere Exposition oder Krankheitsermittlung usw. hätte ausgegeben werden können , ohne nennenswerten Gewinn an Voreingenommenheit oder Präzision zu haben und tatsächlich beide bedroht zu haben.
Obwohl ich die Terminologie "Überanpassung" ebenfalls nicht kannte, könnte ein Beispiel für dieselbe Idee, die ich im Fachjargon "Wirtschaft und Statistik" gehört habe, die Übereinstimmung mit einem "Zwischen" -Ergebnis sein. Siehe Andrew Gelmans Beiträge zu diesem Thema
Dies ist das gleiche Problem wie am Anfang des von Ihnen zitierten Artikels beschrieben ( Marsh et al., 2002 ).
Gelman gibt ein konzeptionell klares Beispiel in dem Beitrag "Macht es konservativer, Söhne zu machen". In einfachen Worten (ohne Beispiele) haben Sie nur Ihre kausalen Richtungen rückwärts.
quelle