Ich versuche die Korrelation zwischen einer dichotomen und einer kontinuierlichen Variablen zu finden.
Bei meinen Grundlagenarbeiten habe ich festgestellt, dass ich einen unabhängigen t-Test verwenden muss und die Voraussetzung dafür ist, dass die Verteilung der Variablen normal sein muss.
Ich führte einen Kolmogorov-Smirnov-Test zum Testen der Normalität durch und stellte fest, dass die kontinuierliche Variable nicht normal und verzerrt ist (für etwa 4.000 Datenpunkte).
Ich habe den Kolmogorov-Smirnov-Test für den gesamten Variablenbereich durchgeführt. Soll ich sie in Gruppen aufteilen und den Test machen? Das heißt, wenn ich risk level
( 0
= nicht riskant, 1
= riskant ) und Cholesterinspiegel habe, dann sollte ich:
Teilen Sie sie in zwei Gruppen, wie
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
Nehmen Sie sie zusammen und wenden Sie den Test an? (Ich habe es nur für den gesamten Datensatz durchgeführt.)
Welchen Test soll ich danach durchführen, wenn er noch nicht normal ist?
BEARBEITEN: Das obige Szenario war nur eine Beschreibung, die ich versucht habe, für mein Problem bereitzustellen. Ich habe einen Datensatz, der mehr als 1000 Variablen und ungefähr 4000 Proben enthält. Sie sind entweder kontinuierlich oder kategorisch. Meine Aufgabe ist es, eine dichotome Variable basierend auf diesen Variablen vorherzusagen (möglicherweise ein logistisches Regressionsmodell zu entwickeln). Daher dachte ich, dass die erste Untersuchung das Auffinden der Korrelation zwischen dichotomen und einer kontinuierlichen Variablen beinhalten würde.
Ich habe versucht zu sehen, wie die Verteilung der Variablen ist, und daher versucht, zum t-Test zu gehen. Hier fand ich die Normalität als Problem. Der Kolmogorov-Smirnov-Test ergab in den meisten dieser Variablen einen Signifikanzwert von 0,00.
Soll ich hier Normalität annehmen? Die Schiefe und Kurtosis dieser Variablen zeigt auch, dass die Daten in fast allen Fällen verzerrt sind (> 0).
Gemäß der unten angegebenen Anmerkung werde ich die Punkt-Biserial-Korrelation weiter untersuchen. Über die Verteilung der Variablen bin ich mir aber noch nicht sicher.
quelle
Antworten:
Ich bin ein bisschen verwirrt; Ihr Titel sagt "Korrelation", aber Ihr Beitrag bezieht sich auf T-Tests. Ein T-Test ist ein Test der zentralen Position - unterscheidet sich der Mittelwert eines Datensatzes vom Mittelwert eines anderen Datensatzes? Die Korrelation zeigt andererseits die Beziehung zwischen zwei Variablen. Es gibt eine Vielzahl von Korrelationsmaßen. In Ihrem Fall scheint eine Punkt-Biserial-Korrelation angemessen zu sein.
Sie haben Recht, dass ein T-Test Normalität voraussetzt; Es ist jedoch wahrscheinlich, dass die Normalitätstests selbst für triviale Nichtnormalitäten mit einem N von 4000 signifikante Ergebnisse liefern. T-Tests sind ziemlich robust gegenüber geringfügigen Abweichungen von der Normalität, wenn die Varianzen der beiden Datensätze ungefähr gleich sind und die Stichprobe Größen ungefähr gleich. Ein nichtparametrischer Test ist jedoch für Ausreißer robuster und die meisten von ihnen haben eine fast so hohe Leistung wie der t-Test, selbst wenn die Verteilungen normal sind.
In Ihrem Beispiel verwenden Sie "Cholesterin" jedoch als riskant oder nicht riskant. Dies ist mit ziemlicher Sicherheit eine schlechte Idee. Die Dichotomisierung einer kontinuierlichen Variablen ruft magisches Denken hervor. Es heißt, dass Cholesterin irgendwann von "nicht riskant" zu "riskant" wechselt. Angenommen, Sie haben 200 als Cutoff verwendet - dann sagen Sie, dass jemand mit einem Cholesterinspiegel von 201 genau wie jemand mit 400 und jemand mit 199 wie jemand mit 100 ist. Dies macht keinen Sinn.
quelle
Vereinfachen wir die Dinge. Mit N = 4.000 für den Cholesterinspiegel sollten Sie kein Problem damit haben, dass Ihre Ergebnisse durch Ausreißer verzerrt werden. Daher können Sie die Korrelation selbst verwenden, wie in Ihrem Anfangssatz impliziert. Es spielt keine Rolle, ob Sie die Korrelation mit der Pearson-, Spearman- oder Point-Biserial-Methode bewerten.
Wenn Sie stattdessen wirklich Ergebnisse in Bezug auf den typischen Cholesterinunterschied zwischen Hochrisiko- und Niedrigrisikogruppen formulieren müssen, ist der Mann-Whitney-U-Test in Ordnung, aber Sie können auch den informativeren t- Test verwenden. Mit diesem N (und auch mit astronomischen Ausreißern, die Sie zweifellos ausschließen können) müssen Sie sich keine Sorgen machen, dass der Mangel an Normalität Ihre Ergebnisse beeinträchtigt.
quelle