Ich habe mir viele R-Datensätze, Postings in DASL und anderswo angesehen und finde nicht sehr viele gute Beispiele für interessante Datensätze, die die Analyse der Kovarianz für experimentelle Daten veranschaulichen. Es gibt zahlreiche "Spielzeug" -Datensätze mit erfundenen Daten in statistischen Lehrbüchern.
Ich hätte gerne ein Beispiel, wo:
- Die Daten sind real, mit einer interessanten Geschichte
- Es gibt mindestens einen Behandlungsfaktor und zwei Kovariaten
- Mindestens eine Kovariate ist von einem oder mehreren der Behandlungsfaktoren betroffen, und eine Kovariate ist von Behandlungen nicht betroffen.
- Vorzugsweise eher experimentell als beobachtend
Hintergrund
Mein eigentliches Ziel ist es, ein gutes Beispiel für die Vignette meines R-Pakets zu finden. Ein größeres Ziel ist jedoch, dass die Menschen gute Beispiele sehen müssen, um einige wichtige Bedenken in der Kovarianzanalyse zu veranschaulichen. Stellen Sie sich das folgende erfundene Szenario vor (und verstehen Sie bitte, dass meine Kenntnisse der Landwirtschaft bestenfalls oberflächlich sind).
- Wir machen ein Experiment, bei dem Dünger nach dem Zufallsprinzip in Parzellen aufgeteilt und eine Ernte gepflanzt wird. Nach einer geeigneten Wachstumsperiode ernten wir die Ernte und messen einige Qualitätsmerkmale - das ist die Reaktionsvariable. Wir erfassen aber auch den Gesamtniederschlag während der Vegetationsperiode und den Säuregrad des Bodens zum Zeitpunkt der Ernte - und natürlich, welcher Dünger verwendet wurde. Wir haben also zwei Kovariaten und eine Behandlung.
Der übliche Weg, die resultierenden Daten zu analysieren, besteht darin, ein lineares Modell mit der Behandlung als Faktor und additiven Effekten für die Kovariaten abzugleichen. Um die Ergebnisse zusammenzufassen, berechnet man das "bereinigte Mittel" (AKA Least-Squares-Mittel), die Vorhersagen aus dem Modell für jeden Dünger sind, für den durchschnittlichen Niederschlag und den durchschnittlichen Säuregrad des Bodens. Dies stellt alles auf die gleiche Grundlage, denn wenn wir diese Ergebnisse vergleichen, halten wir Niederschlag und Säure konstant.
Dies ist jedoch wahrscheinlich die falsche Vorgehensweise, da der Dünger wahrscheinlich sowohl den Säuregehalt des Bodens als auch die Reaktion beeinflusst. Dies macht das eingestellte Mittel irreführend, da der Behandlungseffekt dessen Wirkung auf den Säuregehalt einschließt. Eine Möglichkeit, damit umzugehen, wäre, dem Modell die Säure zu entziehen. Dann würden die regenbereinigten Mittel einen fairen Vergleich liefern. Wenn es jedoch auf den Säuregehalt ankommt, ist diese Fairness mit einem hohen Preis verbunden, da die verbleibenden Schwankungen zunehmen.
Es gibt Möglichkeiten, dies zu umgehen, indem anstelle der ursprünglichen Werte eine angepasste Version des Säuregehalts im Modell verwendet wird. Das bevorstehende Update meines R-Pakets lsmeans wird dies ausgesprochen einfach machen. Aber ich möchte ein gutes Beispiel haben, um es zu veranschaulichen. Ich werde allen sehr dankbar sein und dies gebührend anerkennen, die mich auf einige gute illustrative Datensätze hinweisen können.
Antworten:
Möglicherweise möchten Sie das
mediation
R-Paket überprüfen . Es enthält experimentelle Daten wiejobs
undframing
wo die Behandlungsvariable sowohl eine Antwortvariable als auch Kovariaten (dh Mediatoren des Behandlungseffekts) beeinflusst, zusammen mit Kovariaten, die nicht von der Behandlung betroffen sind.Ich habe mich in der Mediationsliteratur umgesehen, weil Sie genau eine Mediationsstudie beschrieben haben: Der Düngeeffekt auf die Erntequalität wird durch den Einfluss auf den Säuregehalt des Bodens vermittelt. Auch wenn die Datensätze in der
mediation
Packung Sie nicht zufrieden stellen, finden Sie möglicherweise einen, wenn Sie in die Mediationsliteratur schauen.quelle
framing
Daten unterscheiden sich die Interaktionsdiagramme von LSMeans (basierend auf einem logistischen Modell), wenn die Mediationsvariable festgehalten wird, dramatisch von denen, bei denen sie auf Werte gesetzt wird, die von Behandlungen und anderen Kovariaten vorhergesagt werden, und zeigen somit, wie wichtig es ist, die Mediation einzuleiten variabel in Rechnung zu stellen.Ich dachte, ich würde zeigen, wie eine Analyse mit einem der Datensätze im Mediationspaket herauskommt . Es
framing
wird ein Experiment durchgeführt, bei dem die Probanden die Möglichkeit haben, dem Kongress eine Mitteilung zur Einwanderung zu übermitteln. Allerdings wurde einigen Probanden (treat=1
) zuerst eine Nachricht gezeigt, die Latinos negativ darstellt. Neben der binären Antwort (unabhängig davon, ob eine Nachricht gesendet wurde oder nicht) wurde auchemp
der emotionale Zustand der Probanden nach der Anwendung der Behandlung gemessen . Es gibt auch verschiedene demografische Variablen.Laden Sie zunächst die benötigten Pakete in R und ändern Sie die Bezeichnungen für
educ
kürzere Zeichenfolgen.Passen Sie nun ein logistisches Regressionsmodell an
Hier ist eine Darstellung der herkömmlichen Mittel eingestellt, wo Vorhersagen gemacht werden mit den Kovarianten
age
,income
undemo
setzen bei ihren Mittelwert:Dies ist ein merkwürdiges Ergebnis, da die angezeigten Behandlungseffekte für Frauen und Männer umgekehrt sind und der Effekt der Erziehung nicht wie erwartet monoton ist.
Beachten Sie jedoch, dass
emo
es sich um eine Nachbehandlungsmessung handelt. Dies bedeutet, dass die Behandlung sie beeinflusst haben könnte, dhemo
eine vermittelnde Kovariate ist; und so ist es möglicherweise nicht sinnvoll, Vorhersagen der Antwortvariablen zu vergleichen, während sieemo
konstant gehalten werden. Stattdessen lassen Sie uns Blick auf die Prognosen , woemo
seine vorhergesagten Werte angegeben gesetzt isttreat
und die demographischen Variablen.Dieses Ergebnis ist ganz anders, was darauf hindeutet, dass es
emo
eine starke vermittelnde Rolle spielt. (Das Vermittlungspaket hat Funktionen zum Abschätzen der Stärke dieser Effekte.) Die obigen Vorhersagen legen nahe, dass männliche Probanden, die der negativen Nachricht ausgesetzt sind, unter Berücksichtigung der emotionalen Reaktion die Nachricht mit größerer Wahrscheinlichkeit senden als weibliche Personen oder Personen, die die Nachricht nicht sehen negative Nachricht. Auch die Wirkung voneduc
ist (fast) monoton.Nochmals vielen Dank an @MasatoNakagawa, der mich auf dieses interessante Beispiel hingewiesen und mich auf einige neuere Forschungen zur Kausalität eingestimmt hat.
quelle
Gen-Umwelt-Interaktion nachschlagen GWAS-Studien. Die statistische Analyse, die sie im Wesentlichen durchführen, ist das, was Sie beschrieben haben. Die Frage ist, ob Ihre Umgebung für einen Phänotyp von Bedeutung ist (beobachtbares Merkmal). Eine Denkschule ignoriert im Allgemeinen alle Umweltinformationen und sagt, dass Ihr Erbgut Ihren Phänotyp beschreibt. Dies steht im völligen Gegensatz zu ökologischen Studien, bei denen die Geschichte von der Umwelt handelt und die Gene ignoriert werden. Da beide Parteien versuchen, dasselbe Problem zu verstehen, hat es in letzter Zeit Versuche gegeben, die beiden zu vereinen.
Angenommen, wir studieren BMI. Wir nehmen die ersten Hauptkomponenten der genetischen Matrix als fixe Effekte aufgrund von Genen. Wir passen Bildung mit einem Index 1 für gut ausgebildet und 0 für schlecht ausgebildet als fester Effekt an. Es besteht eine einigermaßen starke Korrelation zwischen dem Bildungsindex und dem Wohlstand der Gemeinde, aus der die Person stammt. Man würde also argumentieren, dass die einkommensschwachen Gemeinden eher Fast-Food-Restaurants haben. Das Fast Food wirkt wie ein fettleibiger Auslöser. "Löst etwas in Ihrem genetischen Setup aus, das die Fettakkumulation fördert", sodass es in irgendeiner Form im genetischen Make-up auftaucht.
Das Simulieren solcher Daten ist kein Problem. Schau hoch
http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml
Auf diese Weise können Sie GWAS-Daten (stellen Sie sich dies als genetische Einheiten vor) simulieren, die für ein Symptom verantwortlich sind. Wenn nicht anders angegeben, werden 1000 mit dem Symptom und 1000 Kontrollen generiert. Die Norm in diesen Simulationen, die ich verwende, ist, dass 9990 SNPs nicht das Symptom verursachen und 10 SNPs es tun. Lesen Sie die Anweisungen, wie diese simuliert werden.
Die Ausgabe ist 1, wenn die Person übergewichtig ist, und 0, wenn sie nicht übergewichtig ist. Simulieren Sie Bildungsfaktoren (abgeschlossene Hochschulausbildung / nicht abgeschlossene Hochschulausbildung) auf der Grundlage einer angemessenen Korrelation mit der Adipositas.
Hoffe das hilft!!!
quelle
Ich würde empfehlen, Freakonomics zu lesen und die Dokumente zu finden, auf denen ihre Arbeit basiert, und zu prüfen, ob Sie diese Daten abrufen können. Sie haben einige wirklich interessante Arbeiten an wirklich interessanten Datensätzen, und in einigen Fällen finden sie sehr clevere Möglichkeiten, um Hypothesen trotz Einschränkungen in den Daten zu testen.
quelle