Verhältnisse (z. B. = / ) werden häufig verwendet (z. B. Faltungsänderungen der mRNA- oder Proteinexpression, des Body-Mass-Index [BMI] usw.). Viele Leute raten, Variablen, die als Verhältnisse codiert sind (z. B. Fold-Change), logarithmisch zu transformieren, da sie stark nach rechts geneigt sind. Verhältnisse ( / ) sind jedoch relative Änderungen und Verhältnisverteilungen sind nicht normal (en.wikipedia.org/wiki/Ratio_distribution). Wenn sowohl als auch lognormal sind, ist log ( / ) normal (ist / X lognormal, nachdem die Retransformationsverzerrung berücksichtigt wurde?)
Die Vergleiche zwischen den logarithmisch transformierten Verhältnissen sind relative Änderungen der relativen Änderungen (dh der Verhältnisse). Darüber hinaus wurde die Notwendigkeit einer Protokolltransformation für rechtwinklige Variablen ( ) in Frage gestellt. In einem kürzlich erschienenen Artikel ( http://www.ncbi.nlm.nih.gov/pubmed/22806695 ) wird beispielsweise vor dem Missbrauch der Protokolltransformation für eine Variable gewarnt. Einige der Ratschläge waren, dass log ( ) nur dann eine Normalverteilung garantiert, wenn lognormal ist. Es garantiert nämlich keine Normalität, selbst für Variablen mit rechtem Versatz. Darüber hinaus ist das Anti-Log von E (log ( )) das geometrische Mittel (GM) von , das immer kleiner als E ( ) ist, und die Tests der Differenzen von E ( ) und der GM sind unterschiedlich. Schließlich ist der GM weder robuster noch weniger wahrscheinlich von den Ausreißern betroffen.
Ein anderes Papier ( http://econtent.hogrefe.com/doi/10.1027/1614-2241/a000110 ) zeigte, dass T-Tests an den Rohvariablen auch für logarithmisch normal verteilte Variablen gut funktionieren. Ein drittes Papier ( http://link.springer.com/article/10.1023%2FB%3AEEST.0000011364.71236.f8 ) zeigte, dass die Leistung des t-Tests bei den Verhältnissen und des t-Tests bei den logarithmisch transformierten Verhältnissen ähnlich ist.
Somit stellt sich die Frage, welches das Ergebnis des Interesses ist. Da log ( ) in die ursprünglichen Einheiten zurücktransformiert werden muss, um sinnvoll zu sein, und aufgrund der Retransformationsverzerrung denke ich, dass die Tests von E ( ) aussagekräftiger sind.
Glücklicherweise sind parametrische Tests (z. B. T-Tests) gegenüber der Verletzung der Normalitätsannahme robust, sobald die Heteroskedastizität berücksichtigt wird (z. B. Welchs T-Test). In diesem Artikel ( http://www.ncbi.nlm.nih.gov/pubmed/24738055 ) wird beispielsweise empfohlen, ANOVA zu verwenden, um die Unterschiede zwischen rohen Faltungsänderungen beim Immunblotting zu testen.
Meine Frage lautet also: Wenn mein Ziel darin besteht, die absolute Änderung der Verhältnisse zu testen, kann ich die Verhältnisse direkt ohne Protokolltransformation vergleichen?
can I compare the ratios directly without log transformation?
In zumindest folgenden Fall und implizit, Sie sind dabei den „Vergleich“ von Verhältnissen. Es ist, wenn Sie rechnenAntworten:
Verteilungen von nicht transformierten Verhältnissen haben nicht nur ungerade Formen, die nicht den Annahmen der traditionellen statistischen Analyse entsprechen, sondern es gibt auch keine gute Interpretation eines Unterschieds zwischen zwei Verhältnissen. Wenn Sie ein Beispiel finden, bei dem der Unterschied zwischen zwei Verhältnissen von Bedeutung ist und die Verhältnisse keine Proportionen eines Ganzen darstellen, beschreiben Sie bitte eine solche Situation.
Als Variable, die in der statistischen Analyse verwendet wird, haben Verhältnisse das signifikante Problem, asymmetrische Maße zu sein, dh es ist sehr wichtig, welcher Wert im Nenner liegt. Diese Asymmetrie macht es fast bedeutungslos, Verhältnisse zu addieren oder zu subtrahieren. Log-Verhältnisse sind symmetrisch und können addiert und subtrahiert werden.
Man kann viel Zeit damit verbringen, sich Gedanken darüber zu machen, welche Verteilung eine Teststatistik hat, oder die "Fremdheit" der Verteilung zu korrigieren, aber es ist wichtig, zuerst ein Effektmaß zu wählen, das die richtigen mathematischen und praktischen Eigenschaften hat. Verhältnisse sollen fast immer verglichen werden, indem das Verhältnis der Verhältnisse oder sein Protokoll (dh die doppelte Differenz der Protokolle der ursprünglichen Messungen) genommen werden.
quelle
Die Antwort von @FrankHarrell und die damit verbundenen Kommentare von ihm und @NickCox beantworten die Frage bewundernswert. Ich würde hinzufügen, dass der implizite Fokus auf die Form der Rohverteilungen von Prädiktoren und Ergebnisvariablen fehl am Platz ist; Bei der linearen Modellierung ist die Linearität der Beziehungen der Prädiktoren zum Ergebnis und die Verteilung der Residuen wichtig.
Ich möchte auch Informationen zu zwei Artikeln hinzufügen, die in der ursprünglichen Frage zitiert wurden und einige Quellen für die vom OP festgestellten Schwierigkeiten erklären könnten. Es ist wichtig, Artikel kritisch zu bewerten und nicht nur zu akzeptieren, weil sie zufällig veröffentlicht wurden.
Das zitierte Papier über den Missbrauch von Protokolltransformationen von Feng et al. Weist zu Recht auf einige Missbräuche hin, die mit Protokolltransformationen möglich sind, hinterlässt jedoch tendenziell den Eindruck, dass Protokolltransformationen eher vermieden als intelligent verwendet werden sollten. Zum Beispiel heißt es in der Zeitung:
mit angeblichen Schwierigkeiten festgestellt wie:
und abschließend:
Ich sehe nicht, dass die in diesem Papier festgestellten angeblichen Schwierigkeiten Gründe dafür bieten, die informierte Verwendung logarithmischer oder anderer Transformationen zu vermeiden. Andere haben schwerwiegendere Mängel in diesem Papier festgestellt. Bland, Altman und Rohlf schrieben eine direkte Antwort: Zur Verteidigung logarithmischer Transformationen . Die vollständige Antwort steckt offenbar hinter einer Paywall, aber ich glaube, die folgenden Zitate würden eine faire Verwendung darstellen:
Bland, Altman und Rohlf schließen daraus:
Das Papier , das "empfiehlt, ANOVA zu verwenden, um die Unterschiede zwischen den Rohfaltenunterschieden (FD) beim Immunblotting zu testen", befasst sich gut mit einigen technischen Schwierigkeiten bei der Durchführung der Densitometrie von sogenannten "Western Blots" (Schwierigkeiten, die mir schmerzlich bewusst sind). Der fast beiläufige Vorschlag am Ende des Dokuments, "die durchschnittliche FD und die zugehörigen P-Werte für die biologischen Replikate zu bestimmen, indem die FD aus Schritt (2) oben in ein Softwarepaket für statistische Analysen wie PRISM oder Analyze IT importiert wird "scheint keine sehr kritische Bewertung erhalten zu haben. (Es schließt auch nicht aus, dass die FD-Werte in der statistischen Analyse logarithmisch transformiert werden können.)
Ein Vorschlag zur Verwendung von rohem FD widerspricht tatsächlich der zuvor in diesem Artikel vorgestellten Idee, dass diese Analyse "eine sehr ähnliche Methode wie qPCR" oder die quantitative Polymerasekettenreaktion ist. Die statistische Analyse von qPCR erfolgt am besten anhand der Werte von "Zyklen bis zur Schwelle" oderC.t Werte. DieseC.t Werte haben direkt Log2 Beziehungen zu den ursprünglichen Mengen der zu analysierenden Nukleinsäuresequenz. Von weiterer Bedeutung bei der Nukleinsäurequantifizierung ist, dass das in der Microarray-Analyse weit verbreitete MA-Diagramm ein Bland-Altman-Diagramm zu logarithmischen Transformationen von Expressionsdaten ist. Wenn Fehler proportional zu interessierenden Werten sind, kann die logarithmische Transformation sehr sinnvoll sein.
quelle
Wenn beidesX. und Y. sind normal mit Null Mittelwert, dann das Verhältnis X./ Y. folgt einer Cauchy-Verteilung mit Dichte
wox0 ist der Standortparameter, der eine Art Maß für die Zentralität der Masse darstellt, und γ die halbe Breite, die eine Art Standardabweichung für Cauchy ist. Es hat keinen Mittelwert, keine Varianz und keine höheren Momente.
quelle