Ich überprüfe gerade ein Manuskript, in dem die Autoren 5-6 logit-Regressionsmodelle mit AIC vergleichen. Einige Modelle haben jedoch Interaktionsterme ohne Berücksichtigung der einzelnen kovariaten Terme. Hat es jemals Sinn, dies zu tun?
Zum Beispiel (nicht spezifisch für Logit-Modelle):
M1: Y = X1 + X2 + X1*X2
M2: Y = X1 + X2
M3: Y = X1 + X1*X2 (missing X2)
M4: Y = X2 + X1*X2 (missing X1)
M5: Y = X1*X2 (missing X1 & X2)
Ich hatte immer den Eindruck, dass man mit dem Interaktionsbegriff X1 * X2 auch X1 + X2 braucht. Daher wären die Modelle 1 und 2 in Ordnung, aber die Modelle 3-5 wären problematisch (auch wenn der AIC niedriger ist). Ist das richtig? Ist es eine Regel oder eher eine Richtlinie? Hat jemand eine gute Referenz, die die Gründe dafür erklärt? Ich möchte nur sicherstellen, dass ich nichts Wichtiges in der Rezension falsch kommuniziere.
Danke für deine Gedanken, Dan
quelle
:
steht für Interaktionen, wie in A: B. Und*
gilt sowohl für Haupteffekte als auch für Wechselwirkungen, also A * B = A + B + A: B. Also, wenn (!) Die Autoren der Arbeit dieser Notation folgen, glaube ich nicht, dass einem der Modelle die restlichen Effekte fehlen?Antworten:
Meistens ist dies eine schlechte Idee - der Hauptgrund dafür ist, dass das Modell nicht mehr für Standortverschiebungen unveränderlich ist. Angenommen, Sie haben ein einzelnes Ergebnis und zwei Prädiktoren und und geben das Modell an:yi xi zi
Wenn Sie die Prädiktoren mit ihren Mitteln wirdxizi
Sie können also sehen, dass die Haupteffekte wieder in das Modell eingefügt wurden.
Ich habe hier ein heuristisches Argument angegeben, aber dies ist ein praktisches Problem. Wie in Faraway (2005) auf Seite 114 erwähnt, ändert eine additive Änderung des Maßstabs die Modellinferenz, wenn die Haupteffekte im Modell nicht berücksichtigt werden, wohingegen dies nicht der Fall ist, wenn Terme niedrigerer Ordnung enthalten sind. Es ist normalerweise unerwünscht, dass willkürliche Dinge wie eine Ortsverschiebung die statistische Inferenz (und damit die Schlussfolgerungen Ihrer Untersuchung) grundlegend verändern, wie dies der Fall sein kann, wenn Sie Polynomterme oder Interaktionen in ein Modell ohne Effekte niedrigerer Ordnung aufnehmen.
Hinweis: Unter bestimmten Umständen möchten Sie die Interaktion möglicherweise nur , wenn eine bestimmte inhaltliche Bedeutung haben oder wenn Sie nur das Produkt und nicht die einzelnen Variablen . In diesem Fall kann man aber auch an den Prädiktor denken und mit dem Modell fortfahrenx i , z i a i = x i z ixizi xi,zi ai=xizi
anstatt als Interaktionsbegriff zu betrachten.ai
quelle
additive change in scale changes the inference (the t -statistics) for all but the highest order terms when any lower order terms are left out of the model
Die additive Änderung von Prädiktoren ändert im Allgemeinen t ihrer Haupteffekte (Terme niedrigerer Ordnung) selbst in einem vollständigen Modell. Die Gesamtanpassung (R ^ 2) bleibt erhalten (wird jedoch bei additiven Änderungen in einem Modell, bei dem einige Haupteffekte entfallen, nicht beibehalten). Wolltest du das sagen?Alle bisherigen Antworten scheinen einen sehr grundlegenden Punkt zu verfehlen: Die von Ihnen gewählte funktionale Form sollte flexibel genug sein, um die wissenschaftlich relevanten Merkmale zu erfassen. Die Modelle 2-5 schreiben einigen Begriffen ohne wissenschaftliche Begründung Nullkoeffizienten vor. Und selbst wenn dies wissenschaftlich begründet ist, bleibt Modell 1 attraktiv, da Sie die Nullkoeffizienten genauso gut testen können, anstatt sie aufzuerlegen.
Der Schlüssel ist zu verstehen, was die Einschränkungen bedeuten. Die typische Mahnung, Modelle 3-5 zu vermeiden, ist, dass in den meisten Anwendungen die von ihnen auferlegten Annahmen wissenschaftlich nicht plausibel sind. Modell 3 geht davon aus, dass X2 nur die Steilheit dY / dX1, nicht aber den Pegel beeinflusst. Modell 4 geht davon aus, dass X1 nur die Steilheit dY / dX2, nicht aber den Pegel beeinflusst. Und Modell 5 geht davon aus, dass weder X1 noch X2 den Pegel beeinflussen, sondern nur dY / dX1 oder dY / dX2. In den meisten Anwendungen scheinen diese Annahmen nicht sinnvoll zu sein. Modell 2 schreibt ebenfalls einen Nullkoeffizienten vor, hat jedoch noch einige Vorteile. Es gibt die beste lineare Annäherung an die Daten, was in vielen Fällen das wissenschaftliche Ziel erfüllt.
quelle
+1 an @Macro. Lassen Sie mich einen ähnlichen Punkt hervorheben, der meiner Meinung nach bei kategorialen Prädiktoren von Belang ist. Vieles kann davon abhängen, wie sie codiert sind . Beispielsweise verwendet die Referenzzellencodierung (auch bekannt als Dummy-Codierung) 0 & 1, während die -1, 0 & 1 verwendet. Sie sich einen einfachen Fall mit zwei Faktoren mit jeweils zwei Ebenen vor, dannx1x2 kann je nach verwendetem Codierschema [0, 0, 0, 1] oder [1, -1, -1, 1] sein. Ich glaube, es ist möglich, dass nur die Interaktion mit einem Codierungsschema "signifikant" ist, aber mit dem anderen Schema alle Begriffe "signifikant" sind. Dies impliziert, dass aussagekräftige Interpretationsentscheidungen auf der Grundlage einer willkürlichen Codierungsentscheidung getroffen werden, die Ihre Software möglicherweise ohne Ihr Wissen für Sie getroffen hat. Ich erkenne, dass dies ein kleiner Punkt ist, aber es ist nur ein weiterer Grund, warum es in der Regel keine gute Idee ist, nur die Interaktion beizubehalten (und natürlich auch keine Teilmenge von Prädiktoren basierend auf p-Werten auszuwählen).
quelle
Da Sie einen Artikel lesen, schlagen Sie möglicherweise vor, dass die Autoren das Problem der Modellhierarchie erörtern und ihre Abweichung davon begründen.
Hier einige Referenzen:
Nelder JA. Die Auswahl von Begriffen in Antwortoberflächenmodellen - wie stark ist das Prinzip der schwachen Vererbung? Der amerikanische Statistiker. 1998; 52: 315–8. http://www.jstor.org/pss/2685433 . Abgerufen am 10. Juni 2010.
Peixoto JL. Hierarchische Variablenauswahl in Polynom-Regressionsmodellen. Der amerikanische Statistiker. 1987; 41: 311–3. http://www.jstor.org/pss/2684752 . Abgerufen am 10. Juni 2010.
Peixoto JL. Eine Eigenschaft gut formulierter polynomieller Regressionsmodelle. Der amerikanische Statistiker. 1990; 44: 26–30. http://www.jstor.org/pss/2684952 . Abgerufen am 10. Juni 2010.
Normalerweise folge ich einer Hierarchie, aber in manchen Situationen weiche ich davon ab. Wenn Sie beispielsweise den Reifenverschleiß in Abhängigkeit von der Laufleistung bei verschiedenen Geschwindigkeiten testen, sieht Ihr Modell möglicherweise folgendermaßen aus:
Profiltiefe = Abfangen + Kilometerstand + Kilometerstand * Geschwindigkeit
Es wäre jedoch physikalisch nicht sinnvoll, einen Haupteffekt der Geschwindigkeit zu berücksichtigen, da der Reifen nicht weiß, wie hoch die Geschwindigkeit bei null Meilen sein wird.
(Auf der anderen Seite möchten Sie möglicherweise immer noch einen Geschwindigkeitseffekt testen, da dies darauf hindeutet, dass sich die Einlaufeffekte bei verschiedenen Geschwindigkeiten unterscheiden. Eine noch bessere Möglichkeit, mit dem Einlauf umzugehen, ist jedoch Daten bei null und sehr geringer Laufleistung abrufen und dann auf Nichtlinearität prüfen. Beachten Sie, dass das Entfernen des Intercept-Terms als Sonderfall für die Verletzung der Hierarchie angesehen werden kann.)
Ich werde auch wiederholen, was oben jemand gesagt hat, weil es sehr wichtig ist: Die Autoren müssen sicherstellen, dass sie wissen, ob ihre Software die Daten zentriert. Das obige Reifenmodell wird physikalisch unsinnig, wenn die Software die Laufleistung durch (Laufleistung - Mittelwert der Laufleistung) ersetzt.
Ähnliches gilt für pharmazeutische Stabilitätsstudien (tangential erwähnt in "Stabilitätsmodelle für sequentielle Lagerung", Emil M. Friedman und Sam C. Shum, AAPS PharmSciTech, Bd. 12, Nr. 1, März 2011, DOI: 10.1208) / s12249-010-9558-x).
quelle
Ich habe einen wirklichen Fall gehabt, der dies veranschaulicht. In den Daten ist eine der Variablen
group
mit 0-Kontrolle und 1-Behandlung dargestellt. Der andere Prädiktor wartime period
0 vor und 1 nach der Behandlung. Die Wechselwirkung war der wichtigste interessierende Parameter zur Messung der Wirkung der Behandlung, wobei der Unterschied nach der Behandlung in der Behandlungsgruppe über dem in der Kontrollgruppe gemessenen Zeiteffekt lag. Der Haupteffekt vongroup
Der Unterschied in den beiden Gruppen wurde vor jeder Behandlung gemessen, so dass er leicht 0 sein konnte (in einem randomisierten Experiment sollte er 0 sein, dies war nicht der Fall). Der 2. Haupteffekt misst den Unterschied zwischen dem Vorher- und Nachher-Zeitraum in der Kontrollgruppe, in der keine Behandlung stattgefunden hat. Daher ist es auch sinnvoll, dass er 0 sein kann, während der Interaktionsterm ungleich Null ist. Dies hängt natürlich davon ab, wie die Dinge codiert wurden und eine andere Codierung würde die Bedeutung ändern und ob die Interaktion ohne die Haupteffekte sinnvoll ist oder nicht. Es ist also nur in Einzelfällen sinnvoll, die Interaktion ohne die wesentlichen Auswirkungen anzupassen.quelle
Ich stimme Peter zu. Ich denke, die Regel ist Folklore. Warum könnten wir uns eine Situation vorstellen, in der zwei Variablen das Modell nur aufgrund einer Interaktion beeinflussen würden? Eine Analogie in der Chemie ist, dass zwei Chemikalien für sich genommen völlig inert sind, aber beim Vermischen eine Explosion verursachen. Mathematisch / statistische Feinheiten wie Invarianz haben nichts mit einem echten Problem mit echten Daten zu tun. Ich denke nur, dass es bei vielen zu berücksichtigenden Variablen sehr viel zu testen gibt, wenn Sie sich alle Haupteffekte und die meisten, wenn nicht alle Interaktionen erster Ordnung ansehen wollen. Wir betrachten Wechselwirkungen zweiter Ordnung auch in kleinen Experimenten mit nur einer Handvoll Variablen so gut wie nie. Je höher die Reihenfolge der Interaktionen, desto unwahrscheinlicher ist es, dass ein echter Effekt eintritt. Also nicht ' Schauen Sie sich keine Interaktionen erster oder zweiter Ordnung an, wenn der Haupteffekt nicht vorhanden ist. Eine gute Regel, aber religiös zu folgen, bedeutet, die Ausnahmen zu übersehen, und Ihr Problem kann eine Ausnahme sein.
quelle
[Der Versuch, einen Teil der ursprünglichen Frage zu beantworten, der in den meisten Antworten offen zu bleiben scheint: "Sollte AIC als Modellauswahlkriterium vertrauenswürdig sein?"]
AIC sollte eher als Richtlinie als eine Regel verwendet werden, die als Evangelium verstanden werden sollte.
Die Wirksamkeit von AIC (oder BIC oder eines ähnlichen "einfachen" Kriteriums für die Modellauswahl) hängt stark vom Lernalgorithmus und dem Problem ab.
Stellen Sie es sich so vor: Das Ziel des Komplexitätsbegriffs (Anzahl der Faktoren) in der AIC-Formel ist einfach: Vermeiden Sie die Auswahl von Modellen, die übermäßig passen. Die Einfachheit von AIC erfasst jedoch häufig nicht die tatsächliche Komplexität des Problems. Aus diesem Grund gibt es andere praktische Techniken, um eine Überanpassung zu vermeiden: zum Beispiel die Kreuzvalidierung oder das Hinzufügen eines Regularisierungsterms.
Wenn ich Online-SGD (Stochastic Gradient Descent) verwende, um eine lineare Regression für einen Datensatz mit einer sehr großen Anzahl von Eingaben durchzuführen, ist AIC ein schrecklicher Prädiktor für die Modellqualität, da es komplexe Modelle mit einer großen Anzahl von Begriffen übermäßig benachteiligt. Es gibt viele Situationen im wirklichen Leben, in denen jeder Begriff nur eine geringe Auswirkung hat, aber eine große Anzahl von ihnen liefert starke statistische Belege für ein Ergebnis. AIC- und BIC-Modellauswahlkriterien würden diese Modelle ablehnen und die einfacheren bevorzugen, obwohl die komplexeren überlegen sind.
Am Ende zählt der Generalisierungsfehler (ungefähr: Out-of-Sample-Performance). AIC kann Ihnen in relativ einfachen Situationen einen Hinweis auf die Modellqualität geben. Seien Sie vorsichtig und denken Sie daran, dass das wirkliche Leben häufig komplexer ist als eine einfache Formel.
quelle