Unter welchen Bedingungen sollte jemand in Betracht ziehen, eine mehrstufige / hierarchische Analyse anstelle einer grundlegenderen / traditionelleren Analyse (z. B. ANOVA, OLS-Regression usw.) zu verwenden? Gibt es Situationen, in denen dies als obligatorisch angesehen werden könnte? Gibt es Situationen, in denen die Verwendung einer mehrstufigen / hierarchischen Analyse ungeeignet ist? Was sind schließlich einige gute Ressourcen für Anfänger, um mehrstufige / hierarchische Analysen zu lernen?
mixed-model
multilevel-analysis
Patrick
quelle
quelle
Antworten:
Wenn die Struktur Ihrer Daten naturgemäß hierarchisch oder verschachtelt ist, bietet sich die mehrstufige Modellierung an. Im Allgemeinen ist dies eine Methode zur Modellierung von Interaktionen.
Ein naheliegendes Beispiel ist, wenn Ihre Daten aus einer organisierten Struktur stammen, z. B. aus einem Land, einem Bundesstaat oder einem Distrikt, in dem Sie die Auswirkungen auf diesen Ebenen untersuchen möchten. Ein weiteres Beispiel, in das Sie eine solche Struktur einpassen können, ist die Längsschnittanalyse, bei der Sie im Laufe der Zeit wiederholte Messungen von vielen Probanden durchgeführt haben (z. B. eine gewisse biologische Reaktion auf eine Medikamentendosis). Eine Ebene Ihres Modells geht von einer durchschnittlichen Gruppenreaktion für alle Probanden im Zeitverlauf aus. Auf einer anderen Ebene Ihres Modells können dann Störungen (zufällige Effekte) aus dem Gruppenmittelwert berücksichtigt werden, um individuelle Unterschiede zu modellieren.
Ein beliebtes und gutes Buch für den Anfang ist Gelmans Datenanalyse unter Verwendung von Regression und mehrstufigen / hierarchischen Modellen .
quelle
Das Center for Multilevel Modeling bietet einige gute kostenlose Online-Tutorials für die Multi-Level-Modellierung und Software-Tutorials für die Anpassung von Modellen sowohl in der MLwiN-Software als auch in STATA.
Nehmen Sie dies als Ketzerei, weil ich nicht mehr als ein Kapitel im Buch gelesen habe, sondern hierarchische lineare Modelle: Anwendungen und Datenanalysemethoden Von Stephen W. Raudenbush wird Anthony S. Bryk sehr empfohlen. Ich habe auch geschworen, dass es im Springer Use R ein Buch zum Thema Multi-Level-Modellierung mit R-Software gibt! Serie, aber ich kann es im Moment nicht finden (ich dachte, es wurde von den gleichen Leuten geschrieben, die das A Beginner's Guide to R-Buch geschrieben haben).
Bearbeiten: Das Buch über die Verwendung von R für mehrstufige Modelle ist Mixed-Effects-Modelle und Erweiterungen in der Ökologie mit R von Zuur, AF, Ieno, EN, Walker, N., Saveliev, AA, Smith, GM
Viel Glück
quelle
Hier ist eine weitere Perspektive zur Verwendung von Modellen mit mehreren Ebenen im Vergleich zu Regressionsmodellen: In einem interessanten Aufsatz von Afshartous und de Leeuw zeigen sie, dass sich die Wahl des Modells von der Wahl des Zeitpunkts unterscheidet, zu dem neue Beobachtungen vorhergesagt werden sollen Das Ziel ist Inferenz (wo Sie versuchen, das Modell mit der Datenstruktur abzugleichen). Das Papier, auf das ich mich beziehe, ist
Afshartous, D., de Leeuw, J. (2005). Vorhersage in Mehrebenenmodellen. J. Educat. Behav. Statist. 30 (2): 109–139.
Ich habe gerade ein anderes Dokument dieser Autoren gefunden: http://moya.bus.miami.edu/~dafshartous/Afshartous_CIS.pdf
quelle
Hier ist ein Beispiel, in dem ein Mehrebenenmodell "wesentlich" sein könnte. Angenommen, Sie möchten die "Qualität" des Unterrichts in einer Reihe von Schulen anhand der Testergebnisse der Schüler bewerten. Eine Möglichkeit, die Qualität der Schule zu definieren, ist die Ermittlung der durchschnittlichen Prüfungsleistung nach Berücksichtigung der Merkmale der Schüler. Man könnte sich das so : wobei die fortlaufende Testnote für Schüler in der Schule , sind Schülerattribute, die auf die Schule bezogen sind, bedeuten, dass ein schulspezifischer Koeffizient für diese Attribute ist, ein " ", der die Schulqualität misst, undy i s i s X i s β s α s ε i s α s
Mit dem Modell in der Hand wird das Problem einer Schätzung. Wenn Sie viele Schulen und viele Daten für jede Schule haben, sind die netten Eigenschaften von OLS (siehe Angrist und Pischke, Mostly Harmless ...schlagen vor, dass Sie dies mit geeigneten Anpassungen an Standardfehlern zur Berücksichtigung von Abhängigkeiten und unter Verwendung von Dummy-Variablen und Interaktionen verwenden möchten, um auf Schulebene Effekte und schulspezifische Intercepts zu erzielen. OLS mag ineffizient sein, ist aber so transparent, dass es möglicherweise einfacher ist, ein skeptisches Publikum zu überzeugen, wenn Sie dies verwenden. Aber wenn Ihre Daten in gewisser Weise spärlich sind - besonders wenn Sie nur wenige Beobachtungen für einige Schulen haben - möchten Sie dem Problem möglicherweise mehr "Struktur" aufzwingen. Möglicherweise möchten Sie Stärke von den Schulen mit größerer Stichprobe "ausleihen", um die lauten Schätzungen zu verbessern, die Sie in den Schulen mit kleinerer Stichprobe erhalten würden, wenn die Schätzung ohne Struktur durchgeführt würde. Dann könnten Sie sich einem zufälligen Effektmodell zuwenden, das über FGLS geschätzt wird.
In diesem Beispiel ist die Verwendung eines Mehrebenenmodells (wie auch immer wir uns letztendlich dafür entscheiden) durch das direkte Interesse an den Intercepts auf Schulebene motiviert. In anderen Situationen können diese Parameter auf Gruppenebene natürlich nur störend sein. Ob Sie sie anpassen müssen oder nicht (und daher immer noch mit einer Art Mehrebenenmodell arbeiten), hängt davon ab, ob bestimmte bedingte Exogenitätsannahmen zutreffen. In diesem Zusammenhang würde ich empfehlen, die ökonometrische Literatur zu Paneldatenmethoden zu konsultieren. Die meisten Erkenntnisse von dort werden auf allgemeine gruppierte Datenkontexte übertragen.
quelle
Die Modellierung auf mehreren Ebenen ist, wie der Name schon sagt, sinnvoll, wenn Ihre Daten auf verschiedenen Ebenen (individuell, über die Zeit, über Domänen usw.) Einflüsse haben. Bei der einstufigen Modellierung wird davon ausgegangen, dass sich alles auf der untersten Ebene befindet. Ein mehrstufiges Modell führt auch Korrelationen zwischen verschachtelten Einheiten ein. Level-1-Einheiten innerhalb derselben Level-2-Einheit werden also korreliert.
In gewissem Sinne kann man sich Mehrebenenmodellierung als Mittelweg zwischen dem "individualistischen Irrtum" und dem "ökologischen Irrtum" vorstellen. Individualistischer Trugschluss ist, wenn "Community-Effekte" ignoriert werden, wie zum Beispiel die Vereinbarkeit des Stils eines Lehrers mit dem Lernstil eines Schülers (es wird davon ausgegangen, dass der Effekt nur vom Einzelnen ausgeht, also machen Sie einfach eine Regression auf Stufe 1). wohingegen "ökologischer Trugschluss" das Gegenteil ist und der Annahme gleicht, dass der beste Lehrer die Schüler mit den besten Noten hatte (und dass die Stufe 1 nicht benötigt wird, machen Sie einfach eine vollständige Regression auf Stufe 2). In den meisten Situationen ist beides nicht angemessen (der Schüler-Lehrer ist ein "klassisches" Beispiel).
Beachten Sie, dass im Schulbeispiel eine "natürliche" Clusterbildung oder Struktur in den Daten vorlag. Dies ist jedoch kein wesentliches Merkmal der mehrstufigen / hierachischen Modellierung. Die natürliche Gruppierung erleichtert jedoch die Mathematik und die Berechnungen. Der Hauptbestandteil ist die vorherige Information, die besagt, dass Prozesse auf verschiedenen Ebenen stattfinden. Tatsächlich können Sie Clustering-Algorithmen entwickeln, indem Sie Ihren Daten eine mehrstufige Struktur zuweisen, bei der Sie sich nicht sicher sind, welche Einheit sich auf welcher höheren Ebene befindet. Sie haben also wobei der Index unbekannt ist. jyij j
quelle
Im Allgemeinen führt eine hierarchische Bayesian (HB) -Analyse zu effizienten und stabilen Schätzungen einzelner Ebenen, es sei denn, Ihre Daten sind derart, dass einzelne Ebeneneffekte vollständig homogen sind (ein unrealistisches Szenario). Die Effizienz und die stabilen Parameterschätzungen von HB-Modellen werden sehr wichtig, wenn Sie nur wenige Daten haben (z. B. weniger no of obs als no of parameters auf individueller Ebene) und wenn Sie individuelle Ebenenschätzungen schätzen möchten.
HB-Modelle sind jedoch nicht immer leicht abzuschätzen. Während die HB-Analyse in der Regel die Nicht-HB-Analyse übertrifft, müssen Sie die relativen Kosten und den Nutzen basierend auf Ihren bisherigen Erfahrungen und Ihren aktuellen Prioritäten in Bezug auf Zeit und Kosten abwägen.
Wenn Sie jedoch nicht an Schätzungen einzelner Ebenen interessiert sind, können Sie einfach ein aggregiertes Ebenenmodell schätzen. Aber selbst in diesen Kontexten kann die Schätzung von Aggregationsmodellen über HB unter Verwendung individueller Ebenenschätzungen sehr sinnvoll sein.
Zusammenfassend ist das Anpassen von HB-Modellen der empfohlene Ansatz, solange Sie die Zeit und die Geduld haben, um sie anzupassen. Sie können dann Aggregatmodelle als Benchmark verwenden, um die Leistung Ihres HB-Modells zu bewerten.
quelle
Ich habe von Snijders und Bosker gelernt, Multilevel-Analyse: Eine Einführung in die grundlegende und erweiterte Multilevel-Modellierung. Ich denke, es ist sehr gut für Anfänger, es muss sein, weil ich ein Dicker bin, wenn es um diese Dinge geht, und es hat für mich Sinn gemacht.
Ich unterstütze auch den Gelman und Hill, ein wirklich brillantes Buch.
quelle
Mehrebenenmodelle sollten verwendet werden, wenn die Daten in einer hierarchischen Struktur verschachtelt sind, insbesondere wenn zwischen übergeordneten Einheiten in der abhängigen Variablen erhebliche Unterschiede bestehen (z. B. variiert die Ausrichtung der Schülerleistungen zwischen den Schülern und auch zwischen den Klassen, mit denen die Schüler arbeiten) verschachtelt sind). Unter diesen Umständen werden Beobachtungen eher gebündelt als unabhängig. Wenn die Clusterbildung nicht berücksichtigt wird, führt dies zu einer Unterschätzung der Fehler bei Parameterschätzungen, zu verzerrten Signifikanztests und zu der Tendenz, die Null zurückzuweisen, wenn sie beibehalten werden sollte. Die Gründe für die Verwendung von Mehrebenenmodellen sowie ausführliche Erklärungen zur Durchführung der Analysen werden von bereitgestellt
Raudenbush, SW Bryk, AS (2002). Hierarchische lineare Modelle: Anwendungen und Datenanalysemethoden. 2. Auflage. Newbury Park, Kalifornien: Salbei.
Das R & B-Buch ist auch gut in das HLM-Softwarepaket der Autoren integriert, was beim Erlernen des Pakets sehr hilfreich ist. Eine Erklärung, warum mehrstufige Modelle notwendig und einigen Alternativen vorzuziehen sind (z. B. die Dummy-Codierung der übergeordneten Einheiten), finden Sie in einem klassischen Artikel
Hoffman, DA (1997). Ein Überblick über die Logik und das Grundprinzip hierarchischer linearer Modelle. Journal of Management, 23, 723 & ndash; 744.
Das Hoffman-Papier kann kostenlos heruntergeladen werden, wenn Sie Google "Hoffman 1997 HLM" und online auf das PDF zugreifen.
quelle