Methode "A" beschreibt biologische Proben unter Verwendung multivariater "Fingerabdrücke", die aus etwa 30 verschiedenen Variablen bestehen. Unterschiedliche Variablen weisen unterschiedliche typische Verteilungen auf und viele von ihnen korrelieren eng miteinander. Aus früheren Erfahrungen wird angenommen, dass wir viele der Variablen nicht in eine Normalverteilung umwandeln können.
Die Methode "B" ist als verbesserte Version der Methode "A" konzipiert, und wir möchten die Wiederholbarkeit dieser beiden Methoden vergleichen. Wenn wir uns mit einer einzelnen Variablen befassen würden, würden wir unabhängige Analysen mehrerer Proben durchführen und ANOVA verwenden, um die Variabilität innerhalb der Methode mit der Variabilität zwischen den Methoden zu vergleichen. Hier handelt es sich jedoch um multivariate Ausgaben, und wir möchten nicht eine Analyse pro Variable durchführen. Was sind die richtigen Ansätze für diese Frage?
Auflösung
Die Antwort von gui11aume Die Antwort liefert nützliche und wertvolle Informationen. Ich werde die „Downstream - Anwendung“ von gui11aume der Anpassung Antwort von 7 Einweg-Analysen nach wie vorgeschlagen von Adamo.
Antworten:
Dies erinnert mich an die Krebsdiagnostik, bei der alte Genexpressionssignaturen durch neuere ersetzt werden, die natürlich besser sein sollen. Aber wie kann man zeigen, dass sie besser sind?
Hier einige Vorschläge zum Vergleich der Wiederholbarkeit der Methoden.
1. Verwenden Sie die Co-Trägheitsanalyse (CIA).n Beobachtungen. Das erste Paar von Hauptkomponenten sollte stark korreliert sein (wenn Methoden wirklich dasselbe messen). Wenn Methode B besser ist, sollte die Restvarianz kleiner sein als die Restvarianz von Methode A. Mit diesem Ansatz sprechen Sie sowohl die Übereinstimmung der Methoden als auch deren Nichtübereinstimmung an, die Sie als Rauschen interpretieren.
CIA sollte mehr beworben werden, leider ist es nicht weit verbreitet (zum Beispiel keine Wikipedia-Seite). CIA ist eine Zwei-Tabellen-Methode, die nach dem gleichen Prinzip wie die kanonische Analyse (CA) arbeitet, bei der nach einem Paar linearer Scores mit maximaler Korrelation zwischen zwei Sätzen mehrdimensionaler Messungen gesucht wird. Der Vorteil gegenüber CA besteht darin, dass Sie dies auch dann tun können, wenn Sie mehr Dimensionen als Beobachtungen haben. Sie können beide Methoden an denselben Stichproben messen, um zwei gekoppelte Tabellen mit 30 Spalten und
2. Verwenden Sie einen Abstand .
Sie können den euklidischen Abstand in 30 Dimensionen zwischen dem Test und dem erneuten Test verwenden, um die Wiederholbarkeit einer Methode zu messen. Sie generieren für jede Methode eine Stichprobe dieser Punktzahl und können die Stichproben mit dem Wilcoxon-Test vergleichen.
3. Verwenden Sie die nachgeschaltete Anwendung.
Sie erhalten wahrscheinlich diese Fingerabdrücke, um eine Entscheidung zu treffen oder Patienten oder biologisches Material zu klassifizieren. Sie können die Übereinstimmungen und Meinungsverschiedenheiten zwischen Tests und erneuten Tests für beide Methoden zählen und mit dem Wilcoxon-Test vergleichen.
Methode 3 ist die einfachste, aber auch die bodenständigste. Selbst für hochdimensionale Eingaben sind Entscheidungen normalerweise recht einfach. Und wie komplex unser Problem auch sein mag, denken Sie daran, dass Statistik die Wissenschaft der Entscheidung ist.
Bezüglich der Frage in Ihrem Kommentar.
Eine Verringerung der Dimensionalität, wie robust sie auch sein mag, ist mit einem Varianzverlust verbunden. Wenn es eine Möglichkeit gibt, Ihren multivariaten Fingerabdruck in eine einzige Partitur umzuwandeln, die fast die gesamte Varianz erfasst, ist dies bei weitem das Beste. Aber warum ist der Fingerabdruck dann überhaupt multivariat?
Aus dem Kontext des OP ging ich davon aus, dass der Fingerabdruck genau deshalb multivariat ist , weil es schwierig ist, seine Dimensionalität weiter zu reduzieren, ohne Informationen zu verlieren. In diesem Fall muss ihre Wiederholbarkeit für eine einzelne Punktzahl kein guter Indikator für die allgemeine Wiederholbarkeit sein, da Sie möglicherweise den größten Teil der Varianz vernachlässigen (im schlimmsten Fall nahe 29/30).
quelle
Ich gehe von Ihrer Frage und Ihrem Kommentar aus, dass die 30 Ausgabevariablen nicht (einfach) oder nicht in eine einzelne Variable transformiert werden können.
Eine Idee, um mit Daten von ist, dass Sie eine Regression von und umgekehrt. Zusätzliches Wissen (z. B. dass die Variation in Satz A der Variation auch in Satz B entspricht) kann dazu beitragen, das Mapping-Modell und / oder die Interpretation einzuschränken.X A ( n × p A ) ≤ X B ( n × p B ) iiXA(n×pA)↔XB(n×pB) XA(n×pA)↦XB(n×pB) i i
Was ist also mit Multi-Block-PCA (oder -PLS), die diese Idee weiterführen? Bei diesen Methoden werden beide multivariaten Fingerabdrücke für dieselben Proben (oder dieselben Personen) zusammen als unabhängige Variablen mit oder ohne einen dritten abhängigen Block analysiert.
R. Brereton: "Chemometrie für die Mustererkennung" beschreibt einige Techniken im letzten Kapitel ("Vergleichen verschiedener Muster") und das Googeln führt Sie zu einer Reihe von Artikeln, auch Einführungen. Beachten Sie, dass Ihre Situation ähnlich klingt wie Probleme, bei denen z. B. spektroskopische und genetische Messungen zusammen analysiert werden (zwei Matrizen mit zeilenweiser Entsprechung im Gegensatz zur Analyse von z. B. Zeitreihen von Spektren, bei denen ein Datenwürfel analysiert wird).
Hier ist ein Artikel über die Mehrblockanalyse : Sahar Hassani: Analyse von Omics-Daten: Grafische Interpretations- und Validierungswerkzeuge in Mehrblockmethoden .
Vielleicht ist dies auch ein guter Ausgangspunkt in eine andere Richtung: Hoefsloot et al., Multiset-Datenanalyse: ANOVA Simultaneous Component Analysis und verwandte Methoden, in: Umfassende Chemometrie - Chemische und biochemische Datenanalyse (ich habe keinen Zugriff darauf habe gerade die Zusammenfassung gesehen)
quelle
30 Einweganalysen sind sicherlich eine Option und wären ein idealer Analysetyp "Tabelle 2", bei dem eine Gesamtleistung auf logische Weise zusammengefasst wird. Es kann der Fall sein, dass Methode B die ersten 20 Faktoren mit leicht verbesserter Genauigkeit erzeugt, während die letzten 10 wesentlich variabler sind. Sie haben das Problem der Inferenz unter Verwendung eines teilweise geordneten Raums: Wenn alle 30 Faktoren in B genauer sind, ist B sicherlich eine bessere Methode. Aber es gibt eine "Grauzone" und mit der großen Anzahl von Faktoren ist es fast garantiert, dass sie in der Praxis auftaucht.
Wenn das Ziel dieser Forschung darin besteht, auf einer einzigen Analyse zu landen, ist es wichtig, das Gewicht jedes Ergebnisses und seine Endpunktanwendung zu berücksichtigen. Wenn diese 30 Variablen für die Klassifizierung, Vorhersage und / oder Clusterbildung von Beobachtungsdaten verwendet werden, würde ich mir eine Validierung dieser Ergebnisse und einen Vergleich von A / B bei der Klassifizierung wünschen (unter Verwendung von Risikostratifizierungstabellen oder mittlerer prozentualer Verzerrung). , Vorhersage (unter Verwendung der MSE) und Clustering (unter Verwendung einer Kreuzvalidierung). Dies ist die richtige Art, mit der Grauzone umzugehen, in der man nicht sagen kann, dass B analytisch besser ist, aber in der Praxis viel besser funktioniert.
quelle
Ich werde eine multivariate ANOVA versuchen, die auf Permutationstests ( PERMANOVA ) basiert . Eine Ordinationsanalyse (basierend auf dem Ergebnis der Gradientenlängenanalyse) könnte ebenfalls hilfreich sein.
quelle
Wenn Sie eine multivariate Normalität annehmen könnten (von der Sie sagten, dass Sie dies nicht könnten), könnten Sie einen Hotelling T2-Test der Gleichheit der mittleren Vektoren durchführen, um festzustellen, ob Sie Unterschiede zwischen Verteilungen beanspruchen könnten oder nicht. Obwohl Sie dies nicht tun können, können Sie die Verteilungen theoretisch vergleichen, um festzustellen, ob sie sich stark unterscheiden. Teilen Sie den 30-dimensionalen Raum in rechteckige Gitter. Verwenden Sie diese als 30-dimensionale Behälter. Zählen Sie die Anzahl der Vektoren, die in jeden Behälter fallen, und wenden Sie einen Chi-Quadrat-Test an, um festzustellen, ob die Verteilungen gleich aussehen. Das Problem bei diesem Vorschlag besteht darin, dass die Behälter sorgfältig ausgewählt werden müssen, um die Datenpunkte auf angemessene Weise abzudecken. Auch der Fluch der Dimensionalität macht es schwierig, Unterschiede zwischen den multivariaten Verteilungen zu identifizieren, ohne eine sehr große Anzahl von Punkten in jeder Gruppe zu haben. Ich halte Vorschläge, die gui11aume gemacht hat, für sinnvoll. Ich glaube nicht, dass die anderen es sind. Da ein Vergleich der Verteilungen in 30 Dimensionen mit einer typischen Stichprobe nicht möglich ist, erscheint mir eine Form eines gültigen Vergleichs der mittleren Vektoren angemessen.
quelle