Ich habe Daten, für die ich die Spearman-Korrelation berechnet habe, und möchte sie für eine Veröffentlichung visualisieren. Die abhängige Variable wird eingestuft, die unabhängige Variable nicht. Was ich visualisieren möchte, ist eher der allgemeine Trend als die tatsächliche Steigung, daher habe ich die unabhängige Rangfolge eingestuft und die Spearman-Korrelation / Regression angewendet. Aber gerade als ich meine Daten plottete und sie in mein Manuskript einfügen wollte, stieß ich auf diese Aussage (auf dieser Website ):
Sie werden fast nie eine Regressionslinie für Beschreibung oder Vorhersage verwenden, wenn Sie eine Spearman-Rangkorrelation durchführen. Berechnen Sie also nicht das Äquivalent einer Regressionslinie .
und später
Sie können Spearman-Rangkorrelationsdaten wie bei einer linearen Regression oder Korrelation grafisch darstellen. Setzen Sie jedoch keine Regressionslinie in das Diagramm . Es wäre irreführend, eine lineare Regressionslinie in ein Diagramm einzufügen, wenn Sie es mit Rangkorrelation analysiert haben.
Die Sache ist, die Regressionslinien unterscheiden sich nicht so sehr von denen, bei denen ich die Unabhängigen nicht einordne und die Pearson-Korrelation berechne. Der Trend ist der gleiche, aber aufgrund der exorbitanten Gebühren für farbige Grafiken in Zeitschriften habe ich mich für die monochrome Darstellung entschieden und die tatsächlichen Datenpunkte überlappen sich so stark, dass sie nicht erkennbar sind.
Ich könnte mich natürlich darum herumarbeiten, indem ich zwei verschiedene Diagramme erstelle: eines für die Datenpunkte (Rang) und eines für die Regressionslinie (ohne Rang), aber wenn sich herausstellt, dass die von mir angegebene Quelle falsch ist oder das Problem In meinem Fall nicht so problematisch, würde es mir das Leben leichter machen. (Ich habe diese Frage auch gesehen , aber sie hat mir nicht geholfen.)
Bearbeiten für zusätzliche Informationen:
Die unabhängige Variable auf der x-Achse repräsentiert die Anzahl der Merkmale und die abhängige Variable auf der y-Achse repräsentiert den Rang, wenn Klassifizierungsalgorithmen in ihrer Leistung verglichen werden. Jetzt habe ich einige Algorithmen, die im Durchschnitt vergleichbar sind, aber was ich mit meinem Plot sagen möchte, ist etwa: "Während Klassifikator A besser wird, je mehr Merkmale vorhanden sind, ist Klassifizierer B besser, wenn weniger Merkmale vorhanden sind."
Bearbeiten Sie 2, um meine Diagramme einzuschließen:
Reihen von Algorithmen, die gegen die Anzahl der Merkmale aufgetragen sind
Reihen von Algorithmen, die gegen die eingestufte Anzahl von Merkmalen aufgetragen sind
Um die Frage aus dem Titel zu wiederholen:
Ist es in Ordnung, eine Regressionslinie für Rangdaten einer Spearman-Korrelation / Regression zu zeichnen?
Antworten:
Eine Rangkorrelation kann verwendet werden, um die monotone Assoziation zwischen Variablen zu erfassen, wie Sie bemerken; als solches würden Sie normalerweise keine Linie dafür zeichnen.
Es gibt Situationen, in denen es durchaus sinnvoll ist, Rangkorrelationen zu verwenden, um Linien tatsächlich an numerisch-y oder numerisch-x anzupassen, unabhängig davon, ob Kendall oder Spearman (oder ein anderer). Siehe die Diskussion (und insbesondere die letzte Handlung) hier .
Das ist jedoch nicht deine Situation. In Ihrem Fall würde ich gerne nur ein Streudiagramm der Originaldaten präsentieren, möglicherweise mit einer reibungslosen Beziehung (z. B. von LOESS).
Sie erwarten, dass die Beziehung monoton ist; Sie könnten vielleicht versuchen, eine monotone Beziehung abzuschätzen und zu zeichnen. [Es gibt eine hier diskutierte R-Funktion , die zur isotonischen Regression passen kann - während das Beispiel dort unimodal und nicht isotonisch ist, kann die Funktion isotonische Anpassungen durchführen.]
Hier ist ein Beispiel für das, was ich meine:
Die Darstellung zeigt eine monotone Beziehung zwischen x und y; Die rote Kurve ist eine
scatter.smooth
Lössglättung (in diesem Fall in R durch erzeugt ), die ebenfalls montonisch ist (es gibt Möglichkeiten, glatte Anpassungen zu erhalten, die garantiert monoton sind, aber in diesem Fall war die Standard-Lössglättung monoton Ich hatte nicht das Bedürfnis, mir Sorgen zu machen.Darstellung von Rang (y) gegen Rang (x), was auf eine monotone Beziehung hinweist. Die grüne Linie zeigt die Ränge der an die Lösskurve angepassten Werte gegen Rang (x).
Wenn Sie nur Rang (Y) gegen X anzeigen, würde ich die Verwendung von Linien in den Plots vermeiden. Soweit ich sehen kann, vermitteln sie nicht viel Wert über dem Korrelationskoeffizienten. Und schon gesagt, Sie interessieren sich nur für den Trend.
[Ich weiß nicht, dass es falsch ist , eine Regressionslinie auf einem Plot mit Rang y gegen Rang x zu zeichnen. Die Schwierigkeit wäre ihre Interpretation.]
quelle
quelle