Ist es „okay“, eine Regressionslinie für Rangdaten zu zeichnen (Spearman-Korrelation)?

11

Ich habe Daten, für die ich die Spearman-Korrelation berechnet habe, und möchte sie für eine Veröffentlichung visualisieren. Die abhängige Variable wird eingestuft, die unabhängige Variable nicht. Was ich visualisieren möchte, ist eher der allgemeine Trend als die tatsächliche Steigung, daher habe ich die unabhängige Rangfolge eingestuft und die Spearman-Korrelation / Regression angewendet. Aber gerade als ich meine Daten plottete und sie in mein Manuskript einfügen wollte, stieß ich auf diese Aussage (auf dieser Website ):

Sie werden fast nie eine Regressionslinie für Beschreibung oder Vorhersage verwenden, wenn Sie eine Spearman-Rangkorrelation durchführen. Berechnen Sie also nicht das Äquivalent einer Regressionslinie .

und später

Sie können Spearman-Rangkorrelationsdaten wie bei einer linearen Regression oder Korrelation grafisch darstellen. Setzen Sie jedoch keine Regressionslinie in das Diagramm . Es wäre irreführend, eine lineare Regressionslinie in ein Diagramm einzufügen, wenn Sie es mit Rangkorrelation analysiert haben.

Die Sache ist, die Regressionslinien unterscheiden sich nicht so sehr von denen, bei denen ich die Unabhängigen nicht einordne und die Pearson-Korrelation berechne. Der Trend ist der gleiche, aber aufgrund der exorbitanten Gebühren für farbige Grafiken in Zeitschriften habe ich mich für die monochrome Darstellung entschieden und die tatsächlichen Datenpunkte überlappen sich so stark, dass sie nicht erkennbar sind.

Ich könnte mich natürlich darum herumarbeiten, indem ich zwei verschiedene Diagramme erstelle: eines für die Datenpunkte (Rang) und eines für die Regressionslinie (ohne Rang), aber wenn sich herausstellt, dass die von mir angegebene Quelle falsch ist oder das Problem In meinem Fall nicht so problematisch, würde es mir das Leben leichter machen. (Ich habe diese Frage auch gesehen , aber sie hat mir nicht geholfen.)

Bearbeiten für zusätzliche Informationen:

Die unabhängige Variable auf der x-Achse repräsentiert die Anzahl der Merkmale und die abhängige Variable auf der y-Achse repräsentiert den Rang, wenn Klassifizierungsalgorithmen in ihrer Leistung verglichen werden. Jetzt habe ich einige Algorithmen, die im Durchschnitt vergleichbar sind, aber was ich mit meinem Plot sagen möchte, ist etwa: "Während Klassifikator A besser wird, je mehr Merkmale vorhanden sind, ist Klassifizierer B besser, wenn weniger Merkmale vorhanden sind."

Bearbeiten Sie 2, um meine Diagramme einzuschließen:

Reihen von Algorithmen, die gegen die Anzahl der Merkmale aufgetragen sind Geben Sie hier die Bildbeschreibung ein

Reihen von Algorithmen, die gegen die eingestufte Anzahl von Merkmalen aufgetragen sind Geben Sie hier die Bildbeschreibung ein

Um die Frage aus dem Titel zu wiederholen:

Ist es in Ordnung, eine Regressionslinie für Rangdaten einer Spearman-Korrelation / Regression zu zeichnen?

Wache
quelle
Wie viele Kategorien gibt es im Rang? Haben Sie die Verhältnismäßigkeitsannahme getestet? Es gibt viele Forscher, die es gut finden, Ordnungsdaten (z. B. Rangfolge) als kontinuierlich zu behandeln. Manchmal, wenn es viele Kategorien gibt, ist es sinnvoll.
robin.datadrivers
1
Es gibt sieben Ränge, sie werden für einen Friedman-Test verwendet
Sentry
1
Können Sie eine Grafik Ihres Grundstücks einfügen?
robin.datadrivers
Ich werde heute eine hochladen, nachdem ich die zu veröffentlichenden realen Daten herausgeschnitten habe.
Wachposten

Antworten:

9

Eine Rangkorrelation kann verwendet werden, um die monotone Assoziation zwischen Variablen zu erfassen, wie Sie bemerken; als solches würden Sie normalerweise keine Linie dafür zeichnen.

Es gibt Situationen, in denen es durchaus sinnvoll ist, Rangkorrelationen zu verwenden, um Linien tatsächlich an numerisch-y oder numerisch-x anzupassen, unabhängig davon, ob Kendall oder Spearman (oder ein anderer). Siehe die Diskussion (und insbesondere die letzte Handlung) hier .

Das ist jedoch nicht deine Situation. In Ihrem Fall würde ich gerne nur ein Streudiagramm der Originaldaten präsentieren, möglicherweise mit einer reibungslosen Beziehung (z. B. von LOESS).

Sie erwarten, dass die Beziehung monoton ist; Sie könnten vielleicht versuchen, eine monotone Beziehung abzuschätzen und zu zeichnen. [Es gibt eine hier diskutierte R-Funktion , die zur isotonischen Regression passen kann - während das Beispiel dort unimodal und nicht isotonisch ist, kann die Funktion isotonische Anpassungen durchführen.]

Hier ist ein Beispiel für das, was ich meine:

Geben Sie hier die Bildbeschreibung ein

Die Darstellung zeigt eine monotone Beziehung zwischen x und y; Die rote Kurve ist eine scatter.smoothLössglättung (in diesem Fall in R durch erzeugt ), die ebenfalls montonisch ist (es gibt Möglichkeiten, glatte Anpassungen zu erhalten, die garantiert monoton sind, aber in diesem Fall war die Standard-Lössglättung monoton Ich hatte nicht das Bedürfnis, mir Sorgen zu machen.

Geben Sie hier die Bildbeschreibung ein
Darstellung von Rang (y) gegen Rang (x), was auf eine monotone Beziehung hinweist. Die grüne Linie zeigt die Ränge der an die Lösskurve angepassten Werte gegen Rang (x).

y^

Wenn Sie nur Rang (Y) gegen X anzeigen, würde ich die Verwendung von Linien in den Plots vermeiden. Soweit ich sehen kann, vermitteln sie nicht viel Wert über dem Korrelationskoeffizienten. Und schon gesagt, Sie interessieren sich nur für den Trend.

[Ich weiß nicht, dass es falsch ist , eine Regressionslinie auf einem Plot mit Rang y gegen Rang x zu zeichnen. Die Schwierigkeit wäre ihre Interpretation.]

Glen_b - Monica neu starten
quelle
Danke, deine Antwort ist gut und gut erklärt. Mir wurde jedoch klar, dass ich möglicherweise wichtige Informationen ausgelassen habe. Ist es mit den von mir angegebenen zusätzlichen Informationen noch gültig? Grafiken folgen heute später, wenn ich an meinem Arbeits-PC bin.
Wachposten
Schauen Sie sich mein Update an und sehen Sie, ob Sie der Meinung sind, dass irgendetwas davon von Wert ist.
Glen_b -Reinstate Monica
Ja, es ist von Wert, aber eher im allgemeinen Sinne. Ich stimme auch zu, dass die "Unrichtigkeit" von der Schwierigkeit herrührt, die Handlung zu interpretieren. Ich befürchte, dass die Leute immer davon ausgehen, dass ich den Rang anhand des Features vorhersagen möchte , auch wenn ich feststelle, dass ich nur den Trend zeigen möchte .
Wachposten
Betrachten Sie Ihre Handlungen --- Sie zeigen Ränge, aber haben Sie originelle Leistungsmaßstäbe, auf denen Ränge basieren?
Glen_b -Reinstate Monica
Ja, aber sie können hier nicht verwendet werden, glauben Sie mir. Der Schwerpunkt meiner Studie liegt auf dem Vergleich der Algorithmen mit dem Friedman-Test, der sie bewertet. Es gibt mehrere Datensätze mit sehr unterschiedlichen Leistungsbereichen, daher ist hier nur der Vergleich zwischen ihnen interessant.
Wachposten
3

ρX.X.X.Y.Y.

Frank Harrell
quelle