Daten transformieren: Alle Variablen oder nur die nicht normalen?

In Andy Fields Discovering Statistics Using SPSS gibt er an, dass alle Variablen transformiert werden müssen.

In der Veröffentlichung: "Untersuchung räumlich unterschiedlicher Zusammenhänge zwischen Landnutzung und Wasserqualität mittels geografisch gewichteter Regression I: Modelldesign und Bewertung" heißt es jedoch ausdrücklich, dass nur die nicht normalen Variablen transformiert wurden.

Ist diese Analyse spezifisch? Bei einem Mittelwertvergleich würde der Vergleich von Protokollen mit Rohdaten offensichtlich einen signifikanten Unterschied ergeben, während die Verwendung einer Regression zur Untersuchung der Beziehung zwischen Variablen an Bedeutung verliert.

Bearbeiten: Hier ist die Volltextseite im Abschnitt "Datenumwandlung":

Und hier ist der Link zum Artikel: http://www.sciencedirect.com/science/article/pii/S0048969708009121

normal-distribution data-transformation I Herzschläge
quelle

Basierend auf dem neuen Bild, das Sie gepostet haben, scheint der Autor "Variable" mit "Beobachtung" zu verwechseln. Oben auf p. Zu Recht betont er, dass Sie beim Transformieren einer Variablen alle ihre Werte (Beobachtungen) auf dieselbe Weise transformieren müssen, da es sonst unmöglich wird, irgendetwas zu vergleichen. (Die Behauptung, dass dies "die Beziehungen zwischen Variablen nicht ändern wird", erfordert jedoch eine äußerst großzügige Interpretation.) Das Ende von p. 154 ist so eindeutig falsch, Satz für Satz (sogar in die Fußnoten), dass es nicht einmal die Zeit wert ist, alle Probleme damit aufzuzählen.

whuber

Antworten:

Sie zitieren einige Ratschläge, die alle zweifellos hilfreich sind, aber es ist schwierig, darin viel Wert zu finden.

In jedem Fall verlasse ich mich voll und ganz auf das, was Sie als Zusammenfassung zitieren. Zur Verteidigung der Autoren möchte ich glauben, dass sie angemessene Qualifikationen für umgebendes oder anderes Material hinzufügen. (Vollständige bibliografische Angaben in den üblichen Namen, Datum, Titel, (Verlag, Ort) oder (Zeitschriftentitel, Band, Seiten) würden die Frage verbessern.)

Feld

Dieser Ratschlag ist hilfreich, aber im besten Fall stark vereinfacht. Die Ratschläge von Field scheinen allgemein beabsichtigt zu sein; Beispielsweise impliziert der Verweis auf Levenes Test einen zeitweiligen Fokus auf die Varianzanalyse.

Angenommen, ich habe einen Prädiktor, der aus verschiedenen Gründen protokolliert werden soll, und eine andere Indikatorvariable, die . Letzteres (a) kann nicht protokolliert werden (b) sollte nicht protokolliert werden. (Tatsächlich hat eine Transformation einer Indikatorvariablen in zwei unterschiedliche Werte keine wichtige Auswirkung.) $(1,0)$

Allgemeiner gesagt ist es in vielen Bereichen üblich, dass einige Prädiktoren transformiert werden und der Rest so bleibt, wie er ist.

Es ist wahr, dass die Begegnung in einer Arbeit oder Dissertation mit einer Mischung von Transformationen, die auf unterschiedliche Prädiktoren angewendet werden (einschließlich als Sonderfall, Identitätsumwandlung oder Belassen wie sie sind), für den Leser häufig ein Problem darstellt. Ist die Mischung eine gut durchdachte Auswahl, oder war sie willkürlich und launisch?

Darüber hinaus hilft in einer Reihe von Studien die Konsistenz des Ansatzes (immer Logarithmen auf eine Antwort anwenden oder niemals) beim Vergleich der Ergebnisse enorm, und ein unterschiedlicher Ansatz erschwert dies erheblich.

Das heißt aber nicht, dass es niemals Gründe für eine Mischung von Transformationen geben könnte.

Ich sehe nicht, dass der größte Teil des Abschnitts, den Sie zitieren, einen großen Einfluss auf die wichtigsten Ratschläge hat, die Sie in Gelb hervorheben. Dies ist an sich ein Problem: Es ist eine seltsame Angelegenheit, eine absolute Regel anzukündigen und sie dann nicht wirklich zu erklären. Umgekehrt deutet die Anordnung "Remember" darauf hin, dass die Begründung von Field bereits früher in dem Buch enthalten war.

Anonymes Papier

Der Kontext hier sind Regressionsmodelle. Das Sprechen über OLS betont seltsamerweise eher die Schätzmethode als das Modell, aber wir können verstehen, was beabsichtigt ist. GWR verstehe ich als geografisch gewichtete Regression.

Das Argument hier ist, dass Sie nicht normale Prädiktoren transformieren und die anderen so lassen sollten, wie sie sind. Dies wirft erneut die Frage auf, was Sie mit Indikatorvariablen tun können und sollten, die nicht normalverteilt werden können (was wie oben beantwortet werden kann, indem darauf hingewiesen wird, dass Nicht-Normalität in diesem Fall kein Problem darstellt). Die einstweilige Verfügung hat jedoch den Nachteil, dass die Nichtnormalität der Prädiktoren das Problem ist. Nicht so; Es gehört nicht zur Regressionsmodellierung, etwas über die Randverteilungen der Prädiktoren anzunehmen.

In der Praxis werden Sie, wenn Sie Prädiktoren nahezu normalisieren, häufig Transformationen anwenden, die die funktionale Form für die Daten nahezu zutreffend machen. Ich würde behaupten, dass dies der Hauptgrund für die Transformation ist, trotz der enormen Betonung von Fehlerstruktur in vielen Texten. Mit anderen Worten, Prädiktoren zu protokollieren, um sie näher an die Normalität heranzuführen, kann das Richtige aus dem falschen Grund sein, wenn Sie sich der Linearität im transformierten Raum nähern. $X\beta$

In diesem Forum gibt es so viele außerordentlich gute Ratschläge zu Transformationen, dass ich mich darauf konzentriert habe, zu diskutieren, was Sie zitieren.

PS: Sie fügen eine Anweisung hinzu, die mit "Beispielsweise würde ein Vergleich von Protokollen mit Rohdaten bei einem Mittelwertvergleich offensichtlich einen signifikanten Unterschied ergeben." Mir ist nicht klar, was Sie vorhaben, aber der Vergleich von Werten für eine Gruppe mit Logarithmen von Werten für eine andere Gruppe wäre einfach unsinnig. Ich verstehe den Rest Ihrer Aussage überhaupt nicht.

Nick Cox
quelle

Nick, ich wollte meinen Standpunkt schnell und präzise vermitteln, was ich glaube. In der Welt von Google habe ich genügend Informationen bereitgestellt, um auf die Originaldokumente zuzugreifen, falls diese benötigt werden. Vielen Dank für Ihre Antwort, auch wenn Sie mir auf eine Art und Weise genau die Informationen geliefert haben, nach denen ich gesucht habe: Alle Variablen transformieren zu müssen, wie es der Vorschlag von Field in seinem Abschnitt zur Datentransformation ist, ist ein falscher Ansatz zur Datentransformation.

I Heart Beats

+1. Ich wundere mich darüber, wie taktvoll es Ihnen gelungen ist, Material anzusprechen, das absolut falsch ist. Das Blättern hier und da im SPSS-Buch bietet einen Einblick in einige der wirklich verwirrenden Fragen, die wir auf dieser Site bekommen: Ich denke, sie müssen von Lesern dieses Buches kommen. Es ist voll von Fehlern, Fehlinformationen und regelrechter Konfabulation.

whuber

@I Heart Beats Erfreut fandest du die Antwort hilfreich, aber meine Bitte um richtige Referenzierung steht. Sie können genauso gut sagen, dass unvollständige Referenzen immer vertretbar sind, da interessierte Personen immer Google können. Im Gegenteil, gute Forschung und Wissenschaft werden durch gute bibliografische Praxis unterstützt, indem vollständige Details angegeben werden und nicht (viele) Leser unnötige Arbeit leisten.

Nick Cox

@Nick siehe Änderungen in meiner Frage. Ich glaube, dass der Artikel Open Source ist, und ich habe eine ganze Seite des Textes für den Kontext hinzugefügt.

I Heart Beats

Vielen Dank für die Verbesserung der Referenzen. Sie haben mehr von Field zitiert. Es ist ein zusätzlicher Abschnitt sichtbar, der die Behauptung enthält, dass "das Transformieren der Daten die Beziehungen zwischen Variablen nicht verändert". Entweder hängt das mit einer eigenwilligen Bedeutung von "Beziehung" zusammen, oder (ich fürchte eher) es ist nicht hilfreich, in der Tat ganz falsch. Ich bedaure es (in gewissem Sinne), mit @whuber über das fragliche Buch über die vor uns liegenden Beweise einverstanden zu sein . (Update: whuber machte im Wesentlichen den gleichen Punkt gleichzeitig: siehe seinen Kommentar zu der Frage.)

Nick Cox

Vor allem die beiden Zitate sind irreführend , wenn sich eine Transformation auf Daten angewendet Verwendung in einem Regressionsmodell bestimmt für nicht die getan , um variable PDFs mehr normal verteilt, ist es endlich soweit , das Modell zu machen Residuen mehr symmetrisch , da eine Annahme in der klassischen Regression dass die Fehler Gauß'sch sind. Dies impliziert ein tieferes Maß an Genauigkeit und Stringenz als nur die Symmetrisierung einer PDF.

Darüber hinaus sind beide Zitate insofern schwach, als keiner der beiden die Gründe für ihre Verschreibungen untersucht (zumindest auf der Grundlage der bereitgestellten Informationen). Zufällig bin ich mit beiden nicht einverstanden.

In der von Ihnen hervorgehobenen Passage behauptet das SPSS-Buch, dass Mischungen von Transformationen (z. B. natürliches Protokoll für eine Variable, Quadratwurzel für eine andere) nicht zulässig sind. Warum ist das illegal? Transformationsmischungen verletzen keine mir bekannten Regressionsannahmen. Bitte überprüfen Sie alle Regressionstexte auf Regressionsannahmen, um zu bestätigen, dass dies der Fall ist. Transformationsmischungen können hinsichtlich ihrer Interpretation ein inhaltliches deskriptives Problem darstellen, aber es geht nicht darum, ob Mischungen illegal sind oder nicht. Der SPSS-Typ liegt falsch.

Auch für den zweiten Text sind Transformationen eine Frage der Wahl des Analytikers - ob man sie überhaupt ausführt, alle Eingaben oder einige Variablen und nicht andere. Nichts davon widerspricht irgendwelchen Annahmen.

Ich denke, das zweite Zitat ist die Behauptung, "... um die mögliche Multikollinearität zu vermeiden ... nur ein Landnutzungsindikator (wurde verwendet) ..." Einige Analysten führen eine Dimensionsreduktionstechnik durch, bei der sie eine Reihe von Variablen faktorisch analysieren und für jeden Faktor die höchste Belastungsvariable auswählen. Diese Heuristik gibt es schon seit Jahren und ist keine, die ich verwende oder empfehle. Auch dies ist eine Frage der Präferenz und des Trainings der Analysten. Dieser Punkt ist jedoch nicht auf die Beantwortung Ihrer spezifischen Fragen ausgerichtet.

Letztendlich sind beide Zitate Aussagen der Autoren, wenn keine stichhaltigen Beweise vorliegen, die auf den bereitgestellten Informationen beruhen.

Mike Hunter
quelle

Wir machen im Großen und Ganzen ähnliche Punkte, aber ich möchte hinzufügen, dass gute Texte erklären, dass Gaußsche Fehler die am wenigsten wichtige Annahme bei der Regressionsmodellierung sind und für viele Zwecke nicht benötigt werden.

Nick Cox

Guter Text: stat.columbia.edu/~gelman/arm :)

Matthew Drury