Über die Nützlichkeit der Intercept-Slope-Korrelation in Mehrebenenmodellen

8

In ihrem Buch "Multilevel-Analyse: Eine Einführung in die grundlegende und erweiterte Multilevel-Modellierung" (1999) sagten Snijders & Bosker (Kap. 8, Abschnitt 8.2, Seite 119), dass die Intercept-Slope-Korrelation, berechnet als Intercept-Slope-Kovarianz, geteilt wird durch die Quadratwurzel des Produkts aus Schnittvarianz und Steigungsvarianz, ist nicht zwischen -1 und +1 begrenzt und kann sogar unendlich sein.

Angesichts dessen dachte ich nicht, dass ich ihm vertrauen sollte. Aber ich habe ein Beispiel zu veranschaulichen. In einer meiner Analysen, die Rasse (Dichotomie), Alter und Alter * Rasse als feste Effekte, Kohorte als Zufallseffekt und Rassendichotomievariable als zufällige Steigung aufweist, zeigen meine Streudiagrammserien, dass die Steigung über die Werte nicht stark variiert meiner Clustervariablen (dh Kohortenvariablen), und ich sehe nicht, dass die Steigung über Kohorten hinweg immer weniger oder steiler wird. Der Likelihood Ratio Test zeigt auch, dass die Anpassung zwischen dem Zufallsschnitt- und dem Zufallssteigungsmodell trotz meiner Gesamtstichprobengröße (N = 22.156) nicht signifikant ist. Und dennoch lag die Intercept-Slope-Korrelation nahe -0,80 (was auf eine starke Konvergenz der Gruppendifferenz in der Y-Variablen über die Zeit, dh über Kohorten hinweg, hindeuten würde).

Ich denke, es ist ein gutes Beispiel dafür, warum ich der Intercept-Slope-Korrelation nicht vertraue, zusätzlich zu dem, was Snijders & Bosker (1999) bereits gesagt haben.

Sollten wir der Intercept-Slope-Korrelation in Mehrebenenstudien wirklich vertrauen und darüber berichten? Was ist der Nutzen einer solchen Korrelation?

EDIT 1: Ich glaube nicht, dass es meine Frage beantworten wird, aber Gung hat mich gebeten, weitere Informationen bereitzustellen. Siehe unten, wenn es hilft.

Die Daten stammen aus der Allgemeinen Sozialerhebung. Für die Syntax habe ich Stata 12 verwendet, also lautet es:

xtmixed wordsum bw1 aged1 aged2 aged3 aged4 aged6 aged7 aged8 aged9 bw1aged1 bw1aged2 bw1aged3 bw1aged4 bw1aged6 bw1aged7 bw1aged8 bw1aged9 || cohort21: bw1, reml cov(un) var
  • wordsum ist ein Vokabeltest (0-10),
  • bw1 ist die ethnische Variable (schwarz = 0, weiß = 1),
  • aged1-aged9 sind Scheinvariablen des Alters,
  • bw1aged1-bw1aged9 sind die Wechselwirkungen zwischen ethnischer Zugehörigkeit und Alter,
  • cohort21 ist meine Kohortenvariable (21 Kategorien, codiert von 0 bis 20).

Die Ausgabe lautet:

    . xtmixed wordsum bw1 aged1 aged2 aged3 aged4 aged6 aged7 aged8 aged9 bw1aged1 bw1aged2 bw1aged3 bw1aged4 bw1aged6 bw1aged7 bw1aged8 bw1aged9 || cohort21: bw1, reml 
> cov(un) var

Performing EM optimization: 

Performing gradient-based optimization: 

Iteration 0:   log restricted-likelihood = -46809.738  
Iteration 1:   log restricted-likelihood = -46809.673  
Iteration 2:   log restricted-likelihood = -46809.673  

Computing standard errors:

Mixed-effects REML regression                   Number of obs      =     22156
Group variable: cohort21                        Number of groups   =        21

                                                Obs per group: min =       307
                                                               avg =    1055.0
                                                               max =      1728


                                                Wald chi2(17)      =   1563.31
Log restricted-likelihood = -46809.673          Prob > chi2        =    0.0000

------------------------------------------------------------------------------
     wordsum |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         bw1 |   1.295614   .1030182    12.58   0.000     1.093702    1.497526
       aged1 |  -.7546665    .139246    -5.42   0.000    -1.027584   -.4817494
       aged2 |  -.3792977   .1315739    -2.88   0.004    -.6371779   -.1214175
       aged3 |  -.1504477   .1286839    -1.17   0.242    -.4026635     .101768
       aged4 |  -.1160748   .1339034    -0.87   0.386    -.3785207    .1463711
       aged6 |  -.1653243   .1365332    -1.21   0.226    -.4329245     .102276
       aged7 |  -.2355365    .143577    -1.64   0.101    -.5169423    .0458693
       aged8 |  -.2810572   .1575993    -1.78   0.075    -.5899461    .0278318
       aged9 |  -.6922531   .1690787    -4.09   0.000    -1.023641   -.3608649
    bw1aged1 |  -.2634496   .1506558    -1.75   0.080    -.5587297    .0318304
    bw1aged2 |  -.1059969   .1427813    -0.74   0.458    -.3858431    .1738493
    bw1aged3 |  -.1189573   .1410978    -0.84   0.399     -.395504    .1575893
    bw1aged4 |    .058361   .1457749     0.40   0.689    -.2273525    .3440746
    bw1aged6 |   .1909798   .1484818     1.29   0.198    -.1000393    .4819988
    bw1aged7 |   .2117798    .154987     1.37   0.172    -.0919891    .5155486
    bw1aged8 |   .3350124    .167292     2.00   0.045     .0071262    .6628987
    bw1aged9 |   .7307429   .1758304     4.16   0.000     .3861217    1.075364
       _cons |   5.208518   .1060306    49.12   0.000     5.000702    5.416334
------------------------------------------------------------------------------

------------------------------------------------------------------------------
  Random-effects Parameters  |   Estimate   Std. Err.     [95% Conf. Interval]
-----------------------------+------------------------------------------------
cohort21: Unstructured       |
                    var(bw1) |   .0049087    .010795      .0000659    .3655149
                  var(_cons) |   .0480407   .0271812      .0158491     .145618
              cov(bw1,_cons) |  -.0119882    .015875     -.0431026    .0191262
-----------------------------+------------------------------------------------
               var(Residual) |   3.988915   .0379483      3.915227     4.06399
------------------------------------------------------------------------------
LR test vs. linear regression:       chi2(3) =    85.83   Prob > chi2 = 0.0000

Note: LR test is conservative and provided only for reference.

Das Streudiagramm, das ich erstellt habe, ist unten gezeigt. Es gibt neun Streudiagramme, eines für jede Kategorie meiner Altersvariablen.

Geben Sie hier die Bildbeschreibung ein

EDIT 2:

. estat recovariance

Random-effects covariance matrix for level cohort21

             |       bw1      _cons 
-------------+----------------------
         bw1 |  .0049087            
       _cons | -.0119882   .0480407

Ich möchte noch etwas hinzufügen: Was mich stört, ist, dass Joop J. Hox (2010, S. 90) in Bezug auf die Intercept-Slope-Kovarianz / Korrelation in seinem Buch "Multilevel Analysis Techniques and Applications, Second Edition" sagte, dass :

Es ist einfacher, diese Kovarianz zu interpretieren, wenn sie als Korrelation zwischen dem Achsenabschnitt und den Steigungsresten dargestellt wird. ... In einem Modell ohne andere Prädiktoren außer der Zeitvariablen kann diese Korrelation als gewöhnliche Korrelation interpretiert werden. In den Modellen 5 und 6 handelt es sich jedoch um eine Teilkorrelation, die von den Prädiktoren im Modell abhängig ist.

Es scheint also, dass nicht jeder Snijders & Bosker (1999, S. 119) zustimmen würde, der glaubt, dass "die Idee einer Korrelation hier keinen Sinn ergibt", weil sie nicht zwischen [-1, 1] begrenzt ist.

Meng Hu
quelle
Können Sie die Handlungen posten? Können Sie weitere Informationen zu Ihren Daten und Ihrem Modell hinzufügen? Können Sie die Ausgabe der Analyse und den Code, mit dem sie generiert wurde, veröffentlichen?
Gung - Reinstate Monica
Danke für deinen Kommentar gung. Ich glaube nicht, dass es meine Frage nach dem Nutzen der Intercept-Slope- "Korrelation" beantwortet, aber ich habe mein Q bearbeitet und die von Ihnen angeforderten Informationen hinzugefügt. Ich hoffe es würde trotzdem helfen.
Meng Hu
Vielen Dank, Meng Hu. Ich weiß nicht, ob es Menschen helfen wird oder nicht, aber es könnte und es wird nicht weh tun.
Gung - Reinstate Monica
Da ich das Buch nicht habe, frage ich mich, ob sie das über die Kovarianz von Steigung und Achsenabschnitt gesagt haben , nicht über die Korrelation. Mit N = 22k können Sie die BLUPs nicht veröffentlichen, aber können Sie ihre Varianz-Kovarianz-Matrix veröffentlichen? Ich nehme an, Sie verwenden Stata, was ich nicht weiß, aber es sollte möglich sein.
Gung - Reinstate Monica
Die Varianz-Kovarianz der zufälligen Effekte sollte in der zuvor hinzugefügten Ausgabe angezeigt worden sein. Aber ich habe die Frage noch einmal bearbeitet. Trotzdem erinnere ich mich nicht, dass Snijders & Bosker (1999) etwas Besonderes über die Intercept-Slope-Kovarianz gesagt haben. Sie sagen, wir sollten es immer in ein zufälliges Steigungsmodell aufnehmen. Sie erklären auch, was es bedeutet, einen negativen / positiven Koeffizienten für eine solche Kovarianz zu haben. Aber das ist alles, denke ich. Übrigens habe ich auch die Passage von Hox (2010) hinzugefügt, der glaubt, dass die Intercept-Slope-Korrelation als gewöhnliche Korrelation interpretiert werden kann.
Meng Hu

Antworten:

4

Ich habe vor einigen Wochen mehrere Wissenschaftler (fast 30 Personen) per E-Mail benachrichtigt. Nur wenige von ihnen haben ihre Post verschickt (immer Sammel-E-Mails). Eugene Demidenko antwortete als erster:

cov / sqrt (var1 * var2) liegt unabhängig von der Interpretation immer innerhalb von [-1,1]: Es kann sich um Schätzungen von Achsenabschnitt und Steigung, zwei Steigungen usw. handeln. Die Tatsache, dass -1 <= cov / sqrt (var1 * var2) ) <= 1 ergibt sich aus der Cauchy-Ungleichung und ist immer wahr. Daher lehne ich die Erklärung von Snijders & Bosker ab. Vielleicht fehlt eine andere Information?

Es folgte eine E-Mail von Thomas Snijders:

Die Informationen, die fehlen, wurden tatsächlich auf Seite 122, 123, 124, 129 von Snijders & Bosker (2. Auflage 2012) darüber geschrieben. Hier geht es nicht um zwei konkurrierende Behauptungen, von denen nicht mehr als eine wahr sein kann, sondern um zwei unterschiedliche Interpretationen.

Auf P. 123 wird eine quadratische Varianzfunktion eingeführt, \ sigma_0 ^ 2 + 2 \ sigma_ {01} * x + \ sigma_1 ^ 2 * x ^ 2, und die folgende Bemerkung wird gemacht: "Diese Formel kann ohne die Interpretation verwendet werden, dass \ sigma_0 ^ 2 und \ sigma_1 ^ 2 sind Varianzen und \ sigma_ {01} eine Kovarianz; diese Parameter können beliebige Zahlen sein. Die Formel impliziert nur, dass die Restvarianz eine quadratische Funktion von x ist.

Lassen Sie mich einen vollständigen Absatz von p zitieren. 129 über eine quadratische Varianzfunktion auf Ebene zwei; Beachten Sie, dass ONE MIGHT INTERPRET, dass \ tau_0 ^ 2 und \ tau_1 ^ 2 die Varianzen der Stufe zwei des zufälligen Abschnitts und der zufälligen Steigung sind und \ tau_ {01} ihre Kovarianz ist, aber dies wird explizit hinter den Horizont gestellt:

"Die Parameter \ tau_0 ^ 2, \ tau_1 ^ 2 und \ tau_ {01} sind wie im vorhergehenden Abschnitt nicht selbst als Varianzen und eine entsprechende Kovarianz zu interpretieren. Die Interpretation erfolgt über die Varianzfunktion (8.7 ) [Anmerkung ts: In dem Buch wird dies fälschlicherweise als 8.8 angegeben.] Daher ist es nicht erforderlich, dass \ tau_ {01} ^ 2 <= \ tau_0 ^ 2 * \ tau_1 ^ 2. Anders ausgedrückt: 'Korrelationen'. formal definiert durch \ tau_ {01} / (\ tau_0 * \ tau_1) kann größer als 1 oder kleiner als -1 sein, sogar unendlich, da die Idee einer Korrelation hier keinen Sinn ergibt. Ein Beispiel hierfür liefert das lineare Varianzfunktion, für die \ tau_1 ^ 2 = 0 und nur die Parameter \ tau_0 ^ 2 und \ tau_ {01} verwendet werden. "

Die Varianzfunktion ist eine quadratische Funktion von x (die Variable "mit der zufälligen Steigung"), und die Varianz des Ergebnisses ist dies plus die Varianz der Stufe 1. Solange dies für alle x positiv ist, ist die modellierte Varianz positiv. (Eine zusätzliche Anforderung ist, dass die entsprechende Kovarianzmatrix eindeutig positiv ist.)

Ein weiterer Hintergrund hierfür ist das Vorhandensein von Unterschieden bei Parameterschätzungsalgorithmen in Software. In einigen mehrstufigen Softwareprogrammen (Zufallseffekte) wird die Anforderung gestellt, dass die Kovarianzmatrizen der Zufallseffekte auf allen Ebenen positiv semidefinit sind. In anderer Software wird nur die Anforderung gestellt, dass die resultierende geschätzte Kovarianzmatrix für die beobachteten Daten positiv semidefinit ist. Dies impliziert, dass die Idee der Zufallskoeffizienten latenter Variablen aufgegeben wird und das Modell eine bestimmte Kovarianzstruktur für die beobachteten Daten spezifiziert; nicht mehr und nicht weniger; in diesem Fall findet die zitierte Auslegung von Joop Hox keine Anwendung. Beachten Sie, dass Harvey Goldstein bereits vor langer Zeit lineare Varianzfunktionen auf Ebene 1 verwendet hat, die durch eine Steigungsvarianz von Null und eine Steigungsschnittkorrelation ungleich Null auf Ebene 1 dargestellt werden. dies war und ist "komplexe Variation" genannt; siehe zB http://www.bristol.ac.uk/media-library/sites/cmm/migrated/documents/modelling-complex-variation.pdf

Und dann antwortete Joop Hox:

In der Software MLwiN ist es tatsächlich möglich, einen Kovarianzterm zu schätzen und gleichzeitig eine der Varianzen auf Null zu beschränken, was die "Korrelation" unendlich machen würde. Und ja, einige Software erlaubt Schätzungen wie negative Abweichungen (SEM-Software erlaubt dies normalerweise). Meine Aussagen waren also nicht ganz richtig. Ich bezog mich auf "normale" unstrukturierte Zufallsstrukturen. Lassen Sie mich hinzufügen, dass sich die Varianzen und Kovarianzen im Allgemeinen ändern, wenn Sie die Variable mit der zufälligen Steigung neu skalieren, um einen anderen Nullpunkt zu erhalten. Die Korrelation ist also nur interpretierbar, wenn die Prädiktorvariable einen festen Nullpunkt hat, dh auf einer Verhältnisskala gemessen wird. Dies gilt für Wachstumskurvenmodelle, bei denen die Korrelation zwischen Anfangsstatus und Wachstumsrate manchmal interpretiert wird. In diesem Fall sollte der Wert Null der Wert 'sein.

Und er schickte noch eine Mail:

Wie auch immer, ich denke, Toms Erklärung unten passt besser zum Stil der Snijders / Bosker-Zusammenarbeit als zu meinem informelleren Stil. Ich würde Seite 90 eine Fußnote hinzufügen, die etwas wie "Beachten Sie, dass die Parameterwerte im zufälligen Teil Schätzungen sind. Wenn Sie die standardisierten Kovarianzen als gewöhnliche Korrelationen interpretieren, wird davon ausgegangen, dass es keine Einschränkungen für die Varianzen gibt und dass die Software keine negativen Schätzungen zulässt. Wenn der zufällige Teil unstrukturiert ist, ist die Interpretation als gewöhnliche (Co-) Varianzen im Allgemeinen haltbar. "

Beachten Sie, dass ich im Längskapitel über die Korrelationsinterpretation geschrieben habe. Bei der Modellierung von Wachstumskurven ist es sehr verlockend, diese Korrelation als substanzielles Ergebnis zu interpretieren, und das ist gefährlich, da der Wert von der "Metrik der Zeit" abhängt. Wenn Sie daran interessiert sind, empfehle ich, die Website von Lesa Hoffman ( http://www.lesahoffman.com/ ) zu besuchen .

Daher denke ich, dass ich in meiner Situation, in der ich eine unstrukturierte Kovarianz für die zufälligen Effekte angegeben habe, die Intercept-Slope-Korrelation als gewöhnliche Korrelation interpretieren sollte.

Meng Hu
quelle
Zu Ihrer Information, ob Sie jemanden als einen scholaroder einen bezeichnen sollten, researcherkönnen Sie anhand der Lebensläufe feststellen. Wenn sie zuerst Bücher auflisten (und keine Artikel in Fachzeitschriften haben ... wie es in den Geisteswissenschaften der Fall ist), sind sie es definitiv scholars. Wenn sie zuerst Papiere und / oder Stipendien auflisten, sind sie es researchers.
StasK
@StasK, warum sagen Sie, dass geisteswissenschaftliche Zeitschriften nicht von Experten begutachtet werden? Ich dachte sie sind. Beispiele: Klassische Philologie , frühmittelalterliches Europa - dies waren die ersten, bei denen ich bei Google Scholar Metrics nach zufälligen Stichwörtern gesucht habe. Ich habe noch einige überprüft, und alle scheinen von Experten begutachtet worden zu sein.
Amöbe
Ich habe nur gesagt, dass die Leute eher Bücher als Papiere für von Experten begutachtete Zeitschriften schreiben. Ich habe keinen Zweifel daran, dass es Fachzeitschriften für Geisteswissenschaften gibt.
StasK
1

Ich kann nur Ihre Bemühungen begrüßen, mit den Leuten vor Ort Kontakt aufzunehmen. Ich möchte nur einen kleinen Kommentar zur Nützlichkeit der Korrelation zwischen dem Achsenabschnitt und der Steigung abgeben. Skrondal und Rabe-Hesketh (2004) liefern ein einfaches, albernes Beispiel dafür, wie man diese Korrelation durch Verschieben / Zentrieren der Variablen manipulieren kann, die mit einer zufälligen Steigung in das Modell eintritt. Siehe S. 54 - Suchen Sie in der Amazon-Vorschau nach "Abbildung 3.1". Es ist mindestens ein paar Dutzend Worte wert.

StasK
quelle