Komplikationen einer sehr kleinen Stichprobe in einem Strukturgleichungsmodell

13

In Amos 18 führe ich ein Structural Equation Model (SEM) aus. Ich suchte 100 Teilnehmer für mein Experiment (lose verwendet), was wahrscheinlich nicht ausreichte, um ein erfolgreiches SEM durchzuführen. Mir wurde wiederholt gesagt, dass SEM (zusammen mit EFA, CFA) ein statistisches "Großstichproben" -Verfahren ist. Um es kurz zu machen, ich habe es nicht auf 100 Teilnehmer geschafft (was für eine Überraschung!) Und nur 42, nachdem ich zwei problematische Datenpunkte ausgeschlossen hatte. Aus Interesse habe ich das Modell trotzdem ausprobiert und zu meiner Überraschung schien es sehr gut zu passen! CFI> 0,95, RMSEA <0,09, SRMR <0,08.

Das Modell ist nicht einfach, in der Tat würde ich sagen, dass es relativ komplex ist. Ich habe zwei latente Variablen, eine mit zwei beobachteten und die andere mit 5 beobachteten Variablen. Ich habe auch vier zusätzliche beobachtete Variablen im Modell. Zwischen den indirekten und direkten Variablen bestehen zahlreiche Beziehungen, wobei einige Variablen beispielsweise für vier andere endogen sind.

Ich bin etwas neu in SEM; Zwei mir bekannte Personen, die mit SEM gut vertraut sind, sagen mir jedoch, dass die Auswirkungen interpretierbar sind (solange sie signifikant sind) und mit dem Modell nichts signifikant "falsch" ist, solange die Anpassungsindikatoren gut sind. Ich weiß, dass einige Fit-Indikatoren für oder gegen kleine Stichproben voreingenommen sind, um eine gute Passform zu suggerieren, aber die drei, die ich zuvor erwähnt habe, scheinen in Ordnung zu sein, und ich glaube, dass sie nicht ähnlich voreingenommen sind. Um auf indirekte Effekte zu testen, verwende ich Bootstrapping (2000 Samples oder so), 90 Prozent Bias korrigiertes Vertrauen, Monte Carlo. Eine zusätzliche Anmerkung ist, dass ich drei verschiedene REMs für drei verschiedene Bedingungen laufen lasse.

Ich habe zwei Fragen, über die einige von Ihnen nachdenken sollen, und bitte beantworten Sie diese, wenn Sie etwas beitragen möchten:

  1. Gibt es signifikante Schwächen meines Modells, die nicht durch die Anpassungsindizes belegt werden? Die kleine Stichprobe wird als Schwäche der Studie hervorgehoben, aber ich frage mich, ob es ein großes statistisches Problem gibt, das mir völlig unbekannt ist. Ich plane, in Zukunft weitere 10 bis 20 Teilnehmer zu gewinnen, aber dies lässt mir für solche Analysen immer noch eine relativ kleine Stichprobe übrig.

  2. Gibt es Probleme mit der Verwendung von Bootstrapping in Anbetracht meines kleinen Beispiels oder des Kontexts, in dem ich es verwende?

Ich hoffe diese Fragen sind nicht zu "grundlegend" für dieses Forum. Ich habe eine Reihe von Kapiteln über SEM und verwandte Themen gelesen, aber ich finde, dass die Meinungen in diesem Bereich sehr unterschiedlich sind!

Prost

Behacad
quelle
1
@Behacad - gut erklärtes Problem. Sie schätzen eine Menge Parameter mit sehr spärlichen Daten. Die Schlussfolgerung wird also furchtbar wackelig sein. Aber ich würde gerne einen Schritt zurücktreten und fragen: Verwenden Sie diese 42, um auf Beziehungen zwischen einer größeren Bevölkerung zu schließen? Wenn ja, ist die 42 eine Zufallsstichprobe oder zumindest eine nachweislich repräsentative?
Rolando2
Vielen Dank für Ihren Kommentar rolando2! Die Stichprobe umfasst 42 Studenten, und ich untersuche die Beziehung zwischen einer Reihe von Faktoren und Angstzuständen. Die Beziehungen, auf die ich schließen möchte, gehören zur allgemeinen Bevölkerung. Meine Schlussfolgerungen sind begrenzt, da es sich bei den Teilnehmern um relativ junge Studenten handelt. Ich suche jedoch keine bestimmte Zielgruppe (z. B. Personen mit einer Angststörung). Ich möchte zum Beispiel allgemein festhalten, dass X in einer Nicht-Clinicam-Stichprobe indirekt mit Y assoziiert ist. Beantwortet das Ihre Fragen?
Behacad
1
@Behacad - Unter der Annahme, dass Sie die Repräsentativität Ihrer Stichprobe gegenüber Ihren potenziellen Kritikern verteidigen können, würde ich unmissverständlich sagen, dass der Versuch, Beziehungen zwischen 12 Variablen zu schätzen, zu viel von Ihren 42 Fällen verlangt. Sehen Sie, ob Sie Ihr Modell vereinfachen können, um nur die drei interessantesten Prädiktoren zu berücksichtigen. Obwohl mir klar ist, dass es schmerzhaft ist, sich von Daten zu trennen, bei deren Erfassung Sie möglicherweise hart gearbeitet haben!
rolando2
Danke für Ihre Antwort. Ich habe das "Gefühl", dass es mit 42 Datenpunkten schwierig ist, die Beziehungen zwischen all diesen Variablen zu schätzen, und ich sehe, woher Sie kommen. Abgesehen davon, was wäre ein statistischer Grund (vorzugsweise genannt) für dieses Problem? Wie unterscheidet sich dies von der Ausführung einer Reihe von Regressionen / Korrelationen für verschiedene abhängige Variablen? Die Passform ist gut (und ich verwende drei verschiedene Modelle für verschiedene experimentelle Aufgaben) und die Ergebnisse sind modellübergreifend und in Übereinstimmung mit der Theorie. Entschuldigung, wenn ich als defensiv abkomme!
Behacad
(Nicht defensiv - keine Sorge!) Mit 42 Fällen sind Sie zumindest Stichprobenfehlern ausgesetzt, selbst wenn Sie univariate Statistiken schätzen. Jetzt wird in SEM jede Variable viele Male verwendet, weil Sie die Beziehung von A zu B schätzen, während Sie für C, D usw. steuern. Die Auswirkungen von Stichprobenfehlern werden also propagiert, was nach meinem Verständnis der Grund ist man möchte typischerweise große Proben. In Ihrem Fall haben Sie möglicherweise mehr Arten von Fehlern als Stichprobenfehler, da Sie keine Zufallsstichprobe haben. Sie müssen also ein sehr großes glaubwürdiges Intervall um jedes Ergebnis ziehen, das Sie erhalten.
Rolando2

Antworten:

4

Ein Punkt: Es gibt keine "Grundfrage", Sie wissen nur, was Sie wissen, und nicht, was Sie nicht wissen. Eine Frage zu stellen ist oft die einzige Möglichkeit, dies herauszufinden.

Wann immer Sie kleine Proben sehen, finden Sie heraus, wer wirklich "Vertrauen" in ihre Modelle hat und wer nicht. Ich sage das, weil kleine Samples normalerweise die größte Wirkung haben.

Da ich selbst ein begeisterter (Psycho-?) Modellbauer bin, sage ich: Mach mit! Sie scheinen einen vorsichtigen Ansatz zu verfolgen, und Sie haben aufgrund einer kleinen Stichprobe potenzielle Voreingenommenheit usw. anerkannt. Beachten Sie beim Anpassen von Modellen an kleine Daten, dass Sie 12 Variablen haben. Nun sollte man sich überlegen - wie gut könnte jedes Modell sein mit 12 Variablen durch 42 Beobachtungen bestimmt werden kann. Wenn Sie 42 Variablen hätten, könnte jedes Modell perfekt zu diesen 42 Beobachtungen passen (lose ausgedrückt), so dass Ihr Fall nicht allzu weit davon entfernt ist, zu flexibel zu sein. Was passiert, wenn Ihr Modell zu flexibel ist? Es passt in der Regel zum Rauschen, dh zu den Beziehungen, die von anderen Dingen als den von Ihnen angenommenen bestimmt werden.

Sie haben auch die Möglichkeit, Ihr Ego dahin zu bringen, wo sich Ihr Modell befindet, indem Sie vorhersagen, welche zukünftigen 10-20 Stichproben von Ihrem Modell stammen werden. Ich frage mich, wie Ihre Kritiker auf ein sogenanntes "zwielichtiges" Modell reagieren werden, das die richtigen Vorhersagen liefert. Beachten Sie, dass Sie eine ähnliche Meldung erhalten, wenn Ihr Modell die Daten nicht gut vorhersagt.

Sie können sich auch davon überzeugen, dass Ihre Ergebnisse zuverlässig sind, indem Sie versuchen, sie zu brechen. Behalten Sie Ihre ursprünglichen Daten bei, erstellen Sie einen neuen Datensatz und sehen Sie, was Sie mit diesem neuen Datensatz tun müssen, um Ihre SEM-Ergebnisse lächerlich erscheinen zu lassen. Schauen Sie sich dann an, was Sie zu tun hatten, und überlegen Sie: Ist das ein vernünftiges Szenario? Entsprechen meine "lächerlichen" Daten einer echten Möglichkeit? Wenn Sie Ihre Daten auf lächerliches Terrain bringen müssen, um lächerliche Ergebnisse zu erzielen, bietet dies eine gewisse Sicherheit (heuristisch, nicht formal), dass Ihre Methode solide ist.

Wahrscheinlichkeitslogik
quelle
1

Das Hauptproblem, das ich dabei sehe, ist der Mangel an Strom. Bestätigungsfaktor- und SEM-Tests scheinen die Null zu akzeptieren - Sie möchten einen nicht signifikanten p-Wert sehen - daher kann ein Mangel an Leistung ein Problem sein. Die Stärke des Tests hängt von der Probengröße (42) und den Freiheitsgraden ab. AMOS gibt Ihnen die Freiheitsgrade. Sie haben es nicht zitiert, aber es wird in diesem Fall nicht groß sein. Bei 12 Variablen beginnen Sie mit 66 DFs und subtrahieren 1 für jeden Parameter, den Sie schätzen. Ich weiß nicht, wie viele das sein würden, aber Sie sagen, dass Sie mehrere Faktoren und Korrelationen zwischen verschiedenen Konstrukten haben.

Ich bin nicht ganz einverstanden mit Rolando2. In SEM profitieren Sie von vielen Variablen, vorausgesetzt, sie sind zuverlässige Indikatoren für die zugrunde liegenden Konstrukte. Reduzieren Sie also nicht die Anzahl der Variablen. Aus dem gleichen Grund bin ich mit @probabilityislogic nicht ganz einverstanden. In SEM versuchen Sie nicht, 12 Variablen mit 42 Beobachtungen zu modellieren. Sie versuchen, die Konstrukte anhand von 12 Indikatoren zu modellieren, die durch 42 Replikationen gestärkt werden. Ein sehr einfaches Faktormodell - 1 Faktor mit 12 Indikatoren - könnte möglicherweise mit 42 Personen getestet werden.

Der RMSEA-Wert und andere Größen für die Anpassungsgüte werden sich tendenziell verbessern, wenn Sie sich der Sättigung des Modells nähern. Auch hier besteht die Gefahr eines irreführenden Ergebnisses.

Allerdings habe ich gesehen, dass kleine Datenmengen ein Faktormodell ablehnen. Es bedeutet wahrscheinlich etwas, dass die Passform gut zu sein scheint.

Hinweis: Sie können auch die Residuen eines SEM-Modells überprüfen. Dies sind die Unterschiede zwischen der geschätzten Kovarianzmatrix und der Modellkovarianzmatrix. AMOS wird sie Ihnen geben, wenn Sie sie anfordern. Die Untersuchung der Residuen könnte ergeben, ob sie gleichmäßig verteilt sind oder ob bestimmte Kovarianzen sehr schlecht angepasst sind.

Placidia
quelle