Verwenden Sie ANOVA für Prozentsätze?

13

Ich habe eine Tabelle mit vier Gruppen (4 BMI-Gruppen) als unabhängige Variable (Faktor). Ich habe eine abhängige Variable, die "Prozent Mutter raucht in der Schwangerschaft" ist.

Darf ich ANOVA verwenden oder muss ich Chi-Quadrat oder einen anderen Test verwenden?

zog
quelle

Antworten:

21

Es gibt einen Unterschied zwischen einer binären Variablen als abhängige Variable und einer Proportion als abhängige Variable.

  • Binäre abhängige Variable :

    • Das hört sich nach dem an, was du hast. (dh jede Mutter rauchte entweder oder sie rauchte nicht)
    • In diesem Fall würde ich keine ANOVA verwenden. Eine logistische Regression mit irgendeiner Art von Codierung (möglicherweise Dummy-Codierung) für die kategoriale Prädiktorvariable ist die naheliegende Wahl, wenn Sie die Binärvariable als abhängige Variable konzipieren (andernfalls könnten Sie Chi-Quadrat-Codierungen durchführen).
  • Anteil als abhängige Variable :

    • Das hört sich nicht so an, wie du es hast. (dh Sie haben keine Daten über den Anteil der gesamten Weckzeit, die eine Mutter während der Schwangerschaft rauchte, in einer Stichprobe von rauchenden schwangeren Frauen).
    • In diesem Fall können ANOVA- und standardmäßige lineare Modellansätze im Allgemeinen für Ihre Zwecke sinnvoll sein oder auch nicht. Siehe @Ben Bolkers Antwort für eine Diskussion der Probleme.
Jeromy Anglim
quelle
Für eine binär abhängige Variable für den Fall, dass ich nur Zusammenfassungsdaten für die binären Anteile habe (dh # in den Gruppen A, B und C und die # der Erfolge in der Gruppe A, B und C) und nicht Wie können wir die tatsächlichen Rohdaten mithilfe der logistischen Regression verarbeiten? Ich kenne mich nur mit den Rohdaten aus.
Bryan
15

Dies hängt davon ab, wie nahe die Antworten in verschiedenen Gruppen bei 0 oder 100% liegen. Wenn es viele Extremwerte gibt (dh viele auf 0 oder 100% gestapelte Werte), ist dies schwierig. (Wenn Sie die "Nenner", dh die Anzahl der Subjekte, aus denen die Prozentsätze berechnet werden, nicht kennen, können Sie ohnehin keine Ansätze für Kontingenztabellen verwenden.) Wenn die Werte in Gruppen sinnvoller sind, können Sie die umwandeln Antwortvariable (zB klassische Arkussinus-Quadratwurzel oder vielleicht Logit-Transformation). Es gibt eine Vielzahl von grafischen (bevorzugten) und Nullhypothesentests (weniger bevorzugten) Ansätzen, um zu entscheiden, ob Ihre transformierten Daten den Annahmen von ANOVA angemessen entsprechen (Homogenität von Varianz und Normalität, erstere wichtiger als letztere). Grafische Tests: Boxplots (Homogenität der Varianz) und QQ-Plots (Normalität) [Letzteres sollte in Gruppen oder auf Residuen durchgeführt werden]. Nullhypothesentests: zB Bartlett- oder Fligner-Test (Varianzhomogenität), Shapiro-Wilk, Jarque-Bera usw.

Ben Bolker
quelle
11

Sie müssen die Rohdaten haben, damit die Antwortvariable 0/1 ist (nicht rauchen, rauchen). Dann können Sie die binäre logistische Regression verwenden. Es ist nicht korrekt, den BMI in Intervallen zu gruppieren. Die Grenzwerte sind nicht korrekt, existieren wahrscheinlich nicht, und Sie testen nicht offiziell, ob der BMI mit dem Rauchen zusammenhängt. Sie testen derzeit, ob der BMI mit einem Großteil der verworfenen Informationen mit dem Rauchen zusammenhängt. Sie werden feststellen, dass insbesondere die äußeren BMI-Intervalle recht heterogen sind.

Frank Harrell
quelle
2
@Frank - warum ist es "nicht korrekt", BMI zu gruppieren? Dies scheint völlig in Ordnung zu sein, solange die Ergebnisse angemessen interpretiert werden. Sie könnten beispielsweise testen, ob "Untergewicht", "gesundes Gewicht", "Übergewicht" und "Fettleibigkeit" mit dem Rauchen verbunden sind, wobei diese Begriffe durch die Bereiche des BMI definiert werden. Ich sehe hier kein "falsch".
Wahrscheinlichkeitslogik
Ich glaube, dass das OP mit einem gemeinsamen Anweisungsdatensatz arbeitet und möglicherweise nicht den rohen BMI hat. Während es im Allgemeinen nicht ideal ist, kontinuierliche Regressoren zu diskretisieren, ist es nicht "falsch". Es kann sogar hilfreich sein, darauf zurückzugreifen, wenn wir vermuten, dass die Messungen laut sind und es keine andere Möglichkeit gibt. Die wirkliche Hypothese, die wir testen möchten, ist, ob Fettleibigkeit mit Rauchen zusammenhängt. Der BMI ist nur eine Möglichkeit, Fettleibigkeit zu messen (und hat Probleme, soweit ich weiß).
JMS
4
Selbst wenn Messungen verrauscht sind, ist es besser, Variablen als kontinuierlich zu analysieren. Das Kategorisieren des BMI verursacht mehr Probleme, als durch verschiedene Analyseoptionen behoben werden können. Tatsächlich haben die Schätzungen bei der Kategorisierung keine wissenschaftliche Interpretation mehr. Eine wissenschaftliche Größe hat eine Bedeutung außerhalb des aktuellen Experiments. Sie werden feststellen, dass Gruppenschätzungen (z. B. logarithmische Quoten von Y = 1 für hohe und niedrige Intervalle von X) Funktionen des gesamten Satzes der beobachteten BMIs sind. Wenn Sie beispielsweise der Stichprobe extrem hohe oder extrem niedrige BMIs hinzufügen, werden die "Effekte" stärker.
Frank Harrell
Für diejenigen, die R und RStudio installiert haben, finden Sie eine interaktive Demonstration unter biostat.mc.vanderbilt.edu/BioMod - siehe die grüne NEUE Markierung. Sie müssen das Skript in RStudio laden und auch das Hmisc-Paket installieren.
Frank Harrell
"Auch wenn Messungen verrauscht sind, ist die Analyse von Variablen als kontinuierlich überlegen." Stellen Sie sich vor, Sie haben eine kontinuierliche Kovariate, bei der der Fehler bei der Messung beispielsweise mit der Größe zunimmt. Natürlich ist es das Beste, den Fehler zu modellieren oder bessere Messungen usw. zu erhalten. Aber zu sagen, dass er falsch ist, ist einfach eine zu starke Aussage.
JMS
3

Wenn Sie eine gewöhnliche ANOVA für proportionale Daten durchführen, ist es wichtig, die Annahme homogener Fehlervarianzen zu überprüfen. Wenn (wie bei Prozentangaben üblich) die Fehlervarianzen nicht konstant sind, ist eine realistischere Alternative die Beta-Regression, die diese Heteroskedastizität im Modell erklären kann. In diesem Artikel werden verschiedene alternative Möglichkeiten für den Umgang mit einer Antwortvariablen beschrieben, die als Prozentsatz oder Anteil angegeben ist: http://www.ime.usp.br/~sferrari/beta.pdf

Wenn Sie R verwenden, kann das Paket betareg nützlich sein.

Will Townes
quelle