Zur Verwendung gewichteter Korrelationen in aggregierten Umfragedaten

8

Ich analysiere Daten aus zwei Umfragen, die ich zusammengeführt habe:

  • Schulpersonalbefragung für die Jahre 2005-06 und 2007-08

  • Schülerbefragung für die Jahre 2005-06 bis 2008-09

Für beide Datensätze habe ich Beobachtungen (auf Schüler- oder Personalebene) aus 3 verschiedenen Schulbezirken, die jeweils repräsentative Stichproben pro Jahr in ihrem jeweiligen Schulbezirk enthalten.

Zur Analyse habe ich die Studentendaten in zwei Zweijahresperioden (2005-07 und 2007-09) zusammengefasst. Dann habe ich jeden Datensatz "bearbeitet", um Prozentsätze der Mitarbeiter oder Studenten zu erhalten, die auf Fragen nach Grenzwerten geantwortet haben (z. B. ob sie mit "Einverstanden" geantwortet haben oder ob der Student angegeben hat, dass sie Alkohol konsumiert haben). usw.). Wenn ich also die Datensätze auf Personal- und Schülerebene zusammengeführt habe, ist die Schule die Analyseeinheit, und ich habe nur 1 Beobachtung pro Schule pro 2-Jahres-Zeitraum (vorausgesetzt, der Schule fehlten für einen bestimmten Zeitraum keine Daten ).

Mein Ziel ist es, die Assoziationen zwischen den Antworten von Mitarbeitern und Studenten abzuschätzen. Bisher war mein Plan, Pearson-Korrelationskoeffizienten zwischen allen Variablen (da sie alle kontinuierliche Antworten sind, die Prozentsätze darstellen) für jeden Schulbezirk getrennt voneinander zu erhalten (da dies die Annahme der Generalisierbarkeit für die anderen Bezirke in diesem Datensatz beseitigt). . Zu diesem Zweck würde ich die Distriktdaten ohnehin über die zwei Jahre mitteln, um nur eine Beobachtung pro Schule zu erhalten.

Fragen:

  1. Ist das ein angemessener Analyseplan? Gibt es eine andere Methode, die ich verwenden könnte, um eine bessere Schlussfolgerung oder Leistung zu erzielen?
  2. Wenn mein Plan angemessen ist, sollte ich gewichtete Korrelationen basierend auf der Einschulung erhalten (da es mehr kleinere als große Schulen gibt, die überproportional zu den Korrelationskoeffizienten beitragen würden)?

Ich habe den Datenadministrator danach gefragt, und er erwähnte, dass die Hauptfaktoren, die die Notwendigkeit der Gewichtung meiner Daten bestimmen, darin bestehen, ob ich denke, dass die Schulgröße den Korrelationsgrad beeinflusst oder nicht, und ob meine Interpretation auf Schüler- oder Schulebene erfolgt. Ich denke, meine Interpretation wird auf Schulebene erfolgen (z. B. "Eine Schule mit diesem Prozentsatz der Mitarbeiter, die auf diese Weise antworten, korreliert mit diesem Prozentsatz der Schüler, die auf diese Weise antworten ...").

Iris Tsui
quelle

Antworten:

3

Ich stelle mir vor, das ist mittlerweile Geschichte, aber nur für den Fall ...

1) Ja, das scheint angemessen. Ihre Forschungsfrage muss lauten: "Beziehen sich die Einstellungen / Verhaltensweisen von Lehrern an einer Schule auf die Einstellungen / Verhaltensweisen von Schülern an dieser Schule?" Wenn dies Ihre Frage ist, ist eine Schule die geeignete Analyseeinheit (und es gibt sowieso keine Möglichkeit, einzelne Lehrer den Schülern zuzuordnen).

Ich möchte nur Vorbehalte zur Verwendung des Pearson-Korrelationskoeffizienten hinzufügen, der nicht mit der Frage der Analyseeinheit oder der Stichprobenstrategie zusammenhängt. Der Korrelationskoeffizient kann nichtlineare Beziehungen nicht erfassen, kann bei der Interpretation irreführend sein, kann leicht durch einige Ausreißer verzerrt werden, und die darauf basierende klassische Inferenz hängt von der Normalität ab (die möglicherweise nicht genau mit Ihren Proportionsdaten übereinstimmt, obwohl dies der Fall sein kann eine vernünftige Annäherung). Zumindest würde ich sorgfältig grafische Methoden verwenden, um zu überprüfen, ob dies ein vernünftiger Ansatz ist und es keinen besseren Weg gibt, auf die Beziehung zwischen den beiden Variablen zu schließen.

2) Ich glaube nicht, dass Sie die Daten gewichten müssen , aber ich würde es auf jeden Fall versuchen (und hoffe, dass es die Ergebnisse nicht ändert). Aber ich würde nach Ihrer Stichprobengröße in der Schule gewichten , nicht nach der Einschreibungsgröße. Der Grund wäre eher die Schätzung als Ihre Analyseeinheit oder die Notwendigkeit, "nach Bevölkerung zu gewichten". Sie haben nur eine Schätzung der tatsächlichen Lehrer- und Schülerantworten in jeder Schule, die sich auf Ihre endliche Stichprobe stützt. In Schulen, in denen Sie eine größere Stichprobe hatten, sind Sie sicherer in Ihrer Schätzung, und daher wäre es gut, wenn sie bei der Anpassung Ihrer Korrelation oder linearen Regression ernst genommen würden.

Peter Ellis
quelle
Vielen Dank für Ihre bestätigende Antwort sowie Ihren Rat. Ich habe diese Art der Analyse aus verschiedenen Gründen (einschließlich Zeit und Ressourcen) nicht verwendet und stattdessen die Dinge nur beschreibend dargestellt. Es war mir unangenehm, zu nur zwei Zeitpunkten korrelationsbezogene Schlussfolgerungen über den Trend zu ziehen, also habe ich mich für den sicheren Weg entschieden. Leider bedeutet dies, dass die Daten nicht viel zu meinem Forschungsziel zu sagen haben. Naja.
Iris Tsui