Bland-Altman-Diagramm (Tukey Mean-Difference) für unterschiedliche Skalen

Ich finde, dass Bland-Altman-Diagramme zum Vergleich zweier Methoden bei der Beurteilung der Übereinstimmung äußerst nützlich sind. Ich bin jedoch gespannt, ob es eine ähnliche Methode oder Transformation gibt, die verwendet werden kann, wenn die Skalen der beiden Methoden nicht identisch sind, aber dennoch dasselbe zugrunde liegende Phänomen messen.

Zum Beispiel versuche ich, die Übereinstimmung zwischen zwei Methoden zu vergleichen, die beide den Proteingehalt messen: quantitativer Western Blot und Tryptophanfluoreszenz. Jedes gibt eine ganz andere Art der Messung an, aber es ist immer noch vernünftig zu hinterfragen, wie gut sie bei der Messung des Proteingehalts übereinstimmen.

Meine Frage: Gibt es eine Methode ähnlich einer Bland-Altman-Darstellung (auch als Tukey-Mean-Difference-Darstellung bekannt), die verschiedene Skalen verarbeiten kann? Mein einziger Gedanke war, eine Spearman-Korrelation zu verwenden, um die relative Reihenfolge der Proben zu vergleichen, aber Korrelationen sind mit Gefahren behaftet . Vielen Dank für alle Antworten.

data-visualization agreement-statistics concordance bland-altman-plot Als er
quelle

Ich bin mir nicht sicher, ob es Sinn macht, dies zu tun. Ein Teil des Zwecks besteht darin, die Mittel zu vergleichen, um nach Voreingenommenheit zu suchen. Wenn Sie sich auf verschiedenen Skalen befinden, sind die Mittel nicht aussagekräftig.

Jeremy Miles

Danke @Jeremy für deine Gedanken. Ich bin froh, die Frage dann zu erweitern. Ich suche nach einer Möglichkeit, die Übereinstimmung zweier orthogonaler Methoden zu vergleichen, die dasselbe zugrunde liegende Phänomen (wie den Proteingehalt) bewerten, wenn diese Methoden numerisch nicht auf derselben Skala liegen. Die Spearman-Korrelation zum Vergleichen des Ranges war mein bester Gedanke, aber das fühlt sich wie ein überwältigender Vergleich an.

Ashe

Eine sehr ähnliche, möglicherweise doppelte Frage: stats.stackexchange.com/questions/114465/…

Ashe

Antworten:

Das Problem mit Korrelationen als Maß an Übereinstimmung besteht darin , dass , was sie wirklich beurteilen die Reihenfolge der ist und Werte und der relativen Abstand, aber nicht , dass die Zahlen sich einig (vgl siehe meine Antwort hier: Does Spearman zeigt Übereinstimmung an? ). Wenn die Zahlen jedoch nicht angemessen sind, macht es keinen Sinn, festzustellen, ob sie übereinstimmen - es kann nichts bedeuten, ob sie es tun oder nicht. Infolgedessen kann ein Bland-Altman-Plot hier keinen Wert haben. Eine Korrelation könnte jedoch einen gewissen (wenn auch geringen) Wert bieten. $X_i$ $Y_i$ $r=0.38$

Aus explorativer Sicht würde ich mit einem regulären, alten Streudiagramm beginnen. Ich könnte auch eine einfache lineare Regression durchführen und die Krümmung in der Beziehung testen. Es kann häufig vorkommen, dass unterschiedliche Maßnahmen in unterschiedlichen Bereichen unterschiedlich empfindlich sind. Zum Beispiel können sie genauso gut messen, was Sie in der Mitte ihres Bereichs wollen, aber einer kann bessere Werte besser messen (während der andere gerade anfängt, dieselbe niedrige Zahl auszugeben, möglicherweise eine Nachweisgrenze). und umgekehrt für höhere Werte. Was ich vorhabe ist, dass die Beziehungen nicht linear sind. Betrachten Sie diese stilisierte Figur der Beziehung zwischen Energie und Wassertemperatur:

Stellen Sie sich dann vor, Sie hätten Temperatur und etwas anderes, vielleicht Volumen (Eis beginnt sich bei niedrigeren Temperaturen auszudehnen), beides als Maß für die Energie.

Sobald Sie davon überzeugt waren, dass die Beziehung linear ist, ist Ihre Fähigkeit, den Grad der Übereinstimmung zu messen, auf die Produkt-Moment-Korrelation von Pearson beschränkt. Bland-Altman-Pläne funktionieren hier einfach nicht.

gung - Monica wieder einsetzen
quelle

Nach einem Jahr Nudeln denke ich, dass dieser Ansatz der beste in meiner Situation wäre. Beginnen Sie mit einer visuellen Beurteilung, überlegen Sie dann, wie die Reihenfolge / der Abstand verglichen wird, und überprüfen Sie die Unterschiede in der Empfindlichkeit über die Regression. Vielen Dank für Ihre Überlegungen.

Ashe

Angenommen, Sie können nicht beide Kennzahlen in einen gemeinsamen Satz von Einheiten konvertieren, und beide Kennzahlen sind kontinuierlich und grob normalverteilt, konvertieren Sie beide in standardisierte Bewertungen (z. $z = \frac{x- \mu}{\sigma}$ ).

Als Antwort auf @Nick hinzugefügt: Bland-Altman-Diagramme zeichnen die Differenz zwischen zwei Kennzahlen gegen den Durchschnitt der beiden Kennzahlen auf. Um sinnvoll zu sein, müssen die beiden Kennzahlen auf derselben Skala gemessen werden. Wenn Sie zwei Kennzahlen mit unterschiedlichen Maßstäben in dimensionslose standardisierte Scores konvertieren, können Sie die erforderlichen Berechnungen durchführen.

Als Antwort auf @Nick (2) hinzugefügt:

Ich bin mir nicht sicher, was du sagst. Hier ist ein praktikables Beispiel:

# Load packages
library(dplyr)
library(BlandAltmanLeh)

# Using the same conditions @Ashe used

## Set seed
set.seed(2063)

## Generate data
x <- seq(1, 40)
y <- 2 * x + rnorm(n = length(x), mean = 0, sd = 10)

## Put x and y into a dataframe
df <- data_frame(x = x,
                 y = y) %>%
    ## Add two new columns containing standarized values of x and y
    mutate(x_std = (x - mean(x)) / sd(x),
           y_std = (y - mean(y)) / sd(y))

## Bland-Altman plots of:
### i) raw x and y values
raw <- bland.altman.plot(group1 = df$x,
                  group2 = df$y,
                  main = 'Raw values',
                  xlab = 'Average of x and y',
                  ylab = 'Difference between x and y')

### ii) standardized x and y values
std <- bland.altman.plot(group1 = df$x_std,
                  group2 = df$y_std,
                  main = 'Standardized values',
                  xlab = 'Average of x and y',
                  ylab = 'Difference between x and y')

Es erzielt das gleiche (zumindest in der Form) Ergebnis wie der lmvon @Ashe verwendete Ansatz, was Sie erwarten würden, da beide Methoden die Werte neu skalieren.

Peter K.
quelle

Warum sollte das helfen? Ich denke, diese Antwort muss erweitert werden.

Nick Cox

Sicher, aber was würden Sie planen und warum hilft es? Durch die Standardisierung beider Variablen werden nur die Einheiten in einem Streudiagramm geändert. Durch das Zeichnen von Unterschieden und Mitteln für standardisierte Variablen werden die Unterschiede in Position und Maßstab, die quantifiziert werden müssen, herausgearbeitet, dh es sind eine Verschiebung und eine Neigung, die hier am interessantesten und wichtigsten sind, und Sie haben beide herausgeworfen.

Nick Cox

Jetzt liegt die Streuung notwendigerweise um eine mittlere Differenz von Null. Ich sehe nicht, wie das hilft, die reale Struktur zu beleuchten; Du hast das Baby mit dem Badewasser rausgeworfen. Die Grafik sagt weniger über die realen Daten aus als ein einfacher Unterschied zum mittleren Diagramm.

Nick Cox

Aaha, es hat eine Weile gedauert, bis der Penny über Ihr Problem mit der Standardisierung nachgedacht hat, und ich stimme zu, dass durch die Standardisierung die 'Farbe' aus den Daten entfernt wird. Das Hauptproblem bei der Standardisierung bestand darin, die Mathematik (Mittelwert und Unterschiede zwischen den beiden Maßen) durchführen zu können, aber PCA (wie Sie vorgeschlagen haben) ist eine viel bessere Lösung.

Peter K

Vielen Dank für Ihren Beitrag, Peter K. Die Botschaft, die ich erhalte, ist, dass die Verwendung der Bland-Altman-Methode letztendlich nicht nützlich ist, wenn die Skalen unterschiedlich sind. Etwas, das @JeremyMiles am Anfang in einem Kommentar gesagt hat. Die Antwort auf meine ursprüngliche Frage lautet also einfach "Nein".

Ashe

Ich habe eine mögliche Lösung gefunden, also werde ich versuchen, meine eigene Frage zu beantworten. Ich hätte gerne ein kritisches Feedback von der Community.

Ich weiß, dass die beiden Phänomene zusammenhängen, daher gehe ich davon aus, dass ich eine Skala auf die andere kalibrieren kann. Ich werde dann die Übereinstimmung zwischen den vorhergesagten Werten einer Methode mit den experimentellen Werten der anderen Methode vergleichen. Diese Methode kann immer noch keine Verzerrung der Mittelwerte finden (wie @Jeremy hervorhob, ist dies in diesem Zusammenhang nicht sinnvoll), ermöglicht jedoch möglicherweise einen Vergleich der 95% -Limits.

Ein Code (in R) zum Vergleichen:

library(ggplot2)
set.seed(2063)  #Dr. Cochrane

bland <- function(x, y, titl=''){
  gg.data <- data.frame(x=x, y=y, avg=(x+y)/2, diff=(x-y))
  g <- ggplot(gg.data, aes(x=avg, y=diff)) + geom_point(size=4) + theme_bw()
  g <- g + theme(text=element_text(size=24), axis.text=element_text(colour='black'))
  g <- g + labs(x='Average', y='Difference') + ggtitle(titl)
  g <- g + geom_hline(yintercept=mean(gg.data$diff), colour='chocolate', size=1)
  g <- g + geom_hline(yintercept=mean(gg.data$diff) + 1.96*sd(gg.data$diff), colour='dodgerblue3', size=1,
                      linetype='dashed')
  g <- g + geom_hline(yintercept=mean(gg.data$diff) - 1.96*sd(gg.data$diff), colour='dodgerblue3', size=1,
                      linetype='dashed')
  plot(g)

}

#Make some data
x <- seq(1,40)
y <- 2*x + rnorm(n=length(x), mean=0, sd=10)

qplot(x,y)
lm.data <- data.frame(x=x, y=y)

lm(data=lm.data, y~x)

#Bland-Altman of raw data
bland(x,y,'Raw Data')

#Bland-Altman of calibrated data
orig.df <- data.frame(x=x)
y.p <- predict(lm(data=lm.data, y~x), newdata=orig.df)

bland(y.p,y, 'Calib Data')
qplot(y.p,y)

Wenn ich versuche direkt zu vergleichen $x$ und $y$ Wie erwartet bekomme ich eine sehr schlechte Übereinstimmung:

Wenn ich jedoch die "kalibriere" $x$ Werte zum $y$ Bei Verwendung eines linearen Modells erscheint die Übereinstimmung viel besser:

Einige Schlüsselgedanken:

Ich muss kein lineares Modell verwenden. Jedes Modell, das eine Skala auf eine andere kalibriert, würde gut funktionieren.
Dies ist funktional äquivalent zum Auftragen der Modellreste gegen den Mittelwert von $y$ und der $\hat{y}$ Wert. Das ist meine größte Sorge. Ich möchte die Übereinstimmung zwischen den Methoden vergleichen, aber ich könnte einfach die Qualität des Modells bewerten. Mein gegenwärtiger Gedanke ist, dass diese beiden gleichwertig sind.
Angesichts von Nr. 2 beruht der Wert meines Vergleichs beim Vergleich der Residuen des Modells als Maß für die Übereinstimmung stark auf der Annahme, dass das zur Kalibrierung verwendete Modell korrekt ist.

Wenn ich ein vernünftiges Modell (Nr. 1) ausgewählt habe, um eine Skala mit einer anderen zu kalibrieren (Nr. 3), kann ich die Residuen dieses Modells (Nr. 2) als Maß für die Übereinstimmung angemessen vergleichen. In der zweiten Beispielgrafik oben würde ich dies so interpretieren, dass 95% aller Abweichungen innerhalb von ~ 20 Punkten auf dem liegen $y$ Rahmen. Ich kann dann bewerten, ob diese Grenzwerte für die beiden Methoden, die ich zu studieren versuche, angemessen sind.

Wie ich bereits sagte, sind Kritikpunkte willkommen.

Als er
quelle

Ich bin in dieser Frage agnostisch, da Bland-Altman-Tukey-Handlungen (die zweifellos von jemand anderem, möglicherweise Thiele, erfunden wurden) hier auf Übereinstimmung (dh Identität) als Bezugssituation beruhen. Wenn Ihre Referenz Linearität ist und Sie Variablen symmetrisch behandeln möchten, sind die beiden Hauptkomponenten meiner Meinung nach eine geeignete Neuordnung der Daten. Der erste PC misst die Übereinstimmung in diesem Sinne und der zweite PC misst die Nichtübereinstimmung, und eine Darstellung der beiden PCs ist dann angemessen.

Nick Cox

Aber außerdem ist jedes Modell, das eine Skala auf eine andere kalibriert, ein Blankoscheck (Scheck), den ich Ihnen nicht empfehlen kann. Wenn eine Eins-zu-Eins-Beziehung zulässig ist, dann OK, aber Sie müssen sie zuerst anpassen und dann die Residuen gegen die Anpassung zeichnen.

Nick Cox

@ NickCox Danke für die Antwort. Ich mag den Vorschlag, die Hauptkomponenten zu betrachten. Ich arbeite in einer Situation, in der meine Gruppe neue molekulare Tests entwickelt und wir sie mit Referenzstandards vergleichen. Letztendlich möchte ich mit Sicherheit sagen können, dass ein neuer Test der etablierten Methodik entspricht. Dies wird trübe, wenn sich die beiden Methoden in unterschiedlichen Maßstäben befinden. Ich habe versucht, die Übereinstimmung durch Linearität zu ersetzen, und ich mag Ihren Ansatz mit PCA mehr.

Ashe

@NickCox Können Sie jedoch näher erläutern, was Sie unter "Eins-zu-Eins-Beziehung" verstehen? Meinen Sie damit, dass es für jeden neuen Test 1 Referenzmethode gibt? Wenn dies der Fall ist, gibt es keine Eins-zu-Eins-Beziehung.

Ashe

Ich meine eine Eins-zu-Eins-Zuordnung oder eine monotone Beziehung zwischen Ihren beiden Skalen. Ich denke, genau das haben Sie mit jedem Modell gemeint, das eine Skala auf eine andere kalibriert.

Nick Cox