Ich muss Ausreißer und hohe Hebelpunkte identifizieren und eine Modelldiagnose in einem lme4
Modell durchführen. Für Ausreißer und hohe Hebelpunkte wäre es schön, einfach ein Diagramm zur visuellen Inspektion zu erstellen, das jedoch nicht ausreicht. Ich habe 10.800 Datenpunkte und muss jeden Punkt über einen Analyse- oder Computertest entweder als Ausreißer / High-Leverage oder nicht als Ausreißer / High-Leverage markieren . Nach der Identifizierung von Ausreißern / Punkten mit hohem Hebel werde ich einen separaten Prozess durchlaufen, um zu entscheiden, ob die Punkte aus dem Datensatz ausgeschlossen werden sollen oder nicht.
Der Ausschluss von Punkten berücksichtigt zusätzlich zu der oben erwähnten automatisierten Identifizierung die vorherige detaillierte Analyse der Rohdatenquelle jeder Beobachtung (eine Audioaufzeichnung). Hier bezeichne ich diesen Prozess als "selektives Löschen".
Ich muss auch verstehen, ob meine Ausreißer auf "marginalen" oder "bedingten" Residuen basieren sollten und ob meine Hebelwirkung auf festen oder festen plus zufälligen Effekten basieren sollte. Für Definitionen von "marginal" und "bedingt" sowie mögliche Definitionen von Hebelwirkung verfolge ich Diagnose und Behandlung für lineare gemischte Modelle , Singer et al., 2013 .
Dh mit einem gemischten Modell der Form ... Wobei eine symmetrische, positive Definition ist Matrix. Mit marginal meine ich Residuen der Form: Mit bedingt meine ich Residuen der Form: Meine Fragen sind:
- Wie man Ausreißer identifizieren über ein automatisiertes Verfahren auf einem Basis -
lme4
Modell. - Ob marginale oder bedingte Residuen verwendet werden sollten, um Kandidaten für die selektive Löschung zu identifizieren.
- Welche Art von Residuen sollte zur Beurteilung von Normalität, Linearität, Homoskedastizität usw. verwendet werden?
- Wie man hohe Hebelpunkte zum Zwecke der selektiven Löschung identifiziert und ob man Hebel aus festen oder allen Effekten verwendet (siehe Singer et al. , Oben).
- Wie kann man testen, ob als , dh als allgemeines Multi-Variate-Normal? Wird dies einfach durch Betrachten der QQ-Diagramme der zufälligen Effekte erreicht? Was ist, wenn Kovarianzen hat, dh nicht-diagonale Terme ungleich Null? Ist es immer noch ausreichend, eindimensionale QQ-Diagramme für jeden zufälligen Effekt zu betrachten, um diese Art von Normalität zu bewerten? Oder ist eine Transformation erforderlich?
quelle
Antworten:
(Dies begann als Kommentar, schien aber zu lang zu werden.)
Diese Frage wird möglicherweise weniger beachtet, als sie sonst verdient, da sie sehr weit gefasst ist (unter anderem haben Sie hier 5 separate Fragen gestellt). Ein paar Antworten:
re.form=NULL
oder die Standardeinstellung inlme4
) sinnvoller sind.hatvalues.merMod()
, siehe unten), von den geschätzten Varianz-Kovarianz-Matrizen der zufälligen Effekte abhängig sind . Dies unterscheidet sich von der Frage, ob Sie auf bedingte Modi / BLUPs konditionieren oder nicht. Wenn Sie diese Schätzungen nicht bedingen möchten, müssen Sie (1) eine multivariate Normalität der Schätzungen der Varianz-Kovarianz-Parameter (ugh) annehmen oder (2) eine Art parametrisches Bootstrapping durchführen (Double-ugh). .influence.ME
Paket erledigt einen Großteil seiner Arbeit mit einer Semi-Brute-Force-Methode:Beachten Sie auch den Unterschied zwischen einflussreichen Beobachtungen und einflussreichen Gruppen , von denen jede von Interesse sein könnte.
lme4
Paket enthält eine Hutmatrix (oder deren Diagonale) über?hatvalues.merMod
, sodass Sie diese verwenden können, um einige Standard-Einflussmaße zu berechnen.Abad, Ariel Alonso, Saskia Litière und Geert Molenberghs. "Testen auf Fehlspezifikation in verallgemeinerten linearen gemischten Modellen." Biostatistik 11, nr. 4 (1. Oktober 2010): 771–86. doi: 10.1093 / biostatistics / kxq019.
Julio M. Singer, Juvencio S. Nobre und Francisco MM Rocha. "Diagnose und Behandlung für lineare gemischte Modelle", 5486. Hong Kong, 2013. http://2013.isiproceedings.org/Files/CPS203-P28-S.pdf .
quelle