Welches Korrelationsmaß sollte mit einer großen Lücke verwendet werden (fehlende Daten)?

8

Ich versuche, das Alter (6-90 Jahre) mit der Lautstärke der Stimme (in dB) zu korrelieren. Meine Daten enthalten jedoch keine Datenpunkte im Bereich von 20 bis 50 Jahren.

Welches Korrelationsmaß ist bei einer so großen Lücke am besten geeignet und warum? Ich habe Kendall Tau bisher benutzt.

Beachten Sie, dass es sich hier nicht um bimodal verteilte Daten handelt, sondern um eine erhebliche fehlende Datenlücke in der Altersgruppe.

whuber
quelle
1
Der Titel erwähnt, dass es eine Lücke in einer Variablen gibt, aber aus dem Körper scheint es, dass die Lücke in beiden Variablen ist, für die Sie versuchen, die Korrelation zu berechnen. Welche Daten fehlen also genau?
mpiktas

Antworten:

8

Erstellen Sie ein Streudiagramm , um zu überprüfen, ob es sinnvoll ist anzunehmen, dass ein einzelner Korrelationskoeffizient eine angemessene Beschreibung der Zuordnung zwischen den Variablen darstellt.

In diesen (simulierten) Daten beträgt die Korrelation für das Alter von 6 bis 20 Jahren beispielsweise 90%, für das Alter von über 50 Jahren -70% und insgesamt 15%. In einer solchen Situation würde die Meldung eines einzelnen Korrelationskoeffizienten genauso trügerisch sein wie die Meldung, dass die durchschnittliche Anzahl der Beine unter Haustieren vier beträgt, wenn die Hälfte der Haustiere Fische und die andere Hälfte Spinnen sind ...

Streudiagramm von Lautstärke gegen Alter für 150 simulierte Personen

Die Wahl, wie die Korrelation ausgedrückt werden soll, ist zweitrangig und hängt von anderen Aspekten des Datensatzes ab.

whuber
quelle
whuber ist weise. Bei einer so großen Lücke halte ich es für fast nie gerechtfertigt, einem einzelnen Korrelationsmaß Bedeutung beizumessen.
Michael Bishop
(+1) schöne Spinnenfisch-Anekdote!
Dmitrij Celov