In Andy Fields Discovering Statistics Using SPSS gibt er an, dass alle Variablen transformiert werden müssen.
In der Veröffentlichung: "Untersuchung räumlich unterschiedlicher Zusammenhänge zwischen Landnutzung und Wasserqualität mittels geografisch gewichteter Regression I: Modelldesign und Bewertung" heißt es jedoch ausdrücklich, dass nur die nicht normalen Variablen transformiert wurden.
Ist diese Analyse spezifisch? Bei einem Mittelwertvergleich würde der Vergleich von Protokollen mit Rohdaten offensichtlich einen signifikanten Unterschied ergeben, während die Verwendung einer Regression zur Untersuchung der Beziehung zwischen Variablen an Bedeutung verliert.
Bearbeiten: Hier ist die Volltextseite im Abschnitt "Datenumwandlung":
Und hier ist der Link zum Artikel: http://www.sciencedirect.com/science/article/pii/S0048969708009121
quelle
Antworten:
Sie zitieren einige Ratschläge, die alle zweifellos hilfreich sind, aber es ist schwierig, darin viel Wert zu finden.
In jedem Fall verlasse ich mich voll und ganz auf das, was Sie als Zusammenfassung zitieren. Zur Verteidigung der Autoren möchte ich glauben, dass sie angemessene Qualifikationen für umgebendes oder anderes Material hinzufügen. (Vollständige bibliografische Angaben in den üblichen Namen, Datum, Titel, (Verlag, Ort) oder (Zeitschriftentitel, Band, Seiten) würden die Frage verbessern.)
Feld
Dieser Ratschlag ist hilfreich, aber im besten Fall stark vereinfacht. Die Ratschläge von Field scheinen allgemein beabsichtigt zu sein; Beispielsweise impliziert der Verweis auf Levenes Test einen zeitweiligen Fokus auf die Varianzanalyse.
Angenommen, ich habe einen Prädiktor, der aus verschiedenen Gründen protokolliert werden soll, und eine andere Indikatorvariable, die . Letzteres (a) kann nicht protokolliert werden (b) sollte nicht protokolliert werden. (Tatsächlich hat eine Transformation einer Indikatorvariablen in zwei unterschiedliche Werte keine wichtige Auswirkung.)( 1 , 0 )
Allgemeiner gesagt ist es in vielen Bereichen üblich, dass einige Prädiktoren transformiert werden und der Rest so bleibt, wie er ist.
Es ist wahr, dass die Begegnung in einer Arbeit oder Dissertation mit einer Mischung von Transformationen, die auf unterschiedliche Prädiktoren angewendet werden (einschließlich als Sonderfall, Identitätsumwandlung oder Belassen wie sie sind), für den Leser häufig ein Problem darstellt. Ist die Mischung eine gut durchdachte Auswahl, oder war sie willkürlich und launisch?
Darüber hinaus hilft in einer Reihe von Studien die Konsistenz des Ansatzes (immer Logarithmen auf eine Antwort anwenden oder niemals) beim Vergleich der Ergebnisse enorm, und ein unterschiedlicher Ansatz erschwert dies erheblich.
Das heißt aber nicht, dass es niemals Gründe für eine Mischung von Transformationen geben könnte.
Ich sehe nicht, dass der größte Teil des Abschnitts, den Sie zitieren, einen großen Einfluss auf die wichtigsten Ratschläge hat, die Sie in Gelb hervorheben. Dies ist an sich ein Problem: Es ist eine seltsame Angelegenheit, eine absolute Regel anzukündigen und sie dann nicht wirklich zu erklären. Umgekehrt deutet die Anordnung "Remember" darauf hin, dass die Begründung von Field bereits früher in dem Buch enthalten war.
Anonymes Papier
Der Kontext hier sind Regressionsmodelle. Das Sprechen über OLS betont seltsamerweise eher die Schätzmethode als das Modell, aber wir können verstehen, was beabsichtigt ist. GWR verstehe ich als geografisch gewichtete Regression.
Das Argument hier ist, dass Sie nicht normale Prädiktoren transformieren und die anderen so lassen sollten, wie sie sind. Dies wirft erneut die Frage auf, was Sie mit Indikatorvariablen tun können und sollten, die nicht normalverteilt werden können (was wie oben beantwortet werden kann, indem darauf hingewiesen wird, dass Nicht-Normalität in diesem Fall kein Problem darstellt). Die einstweilige Verfügung hat jedoch den Nachteil, dass die Nichtnormalität der Prädiktoren das Problem ist. Nicht so; Es gehört nicht zur Regressionsmodellierung, etwas über die Randverteilungen der Prädiktoren anzunehmen.
In der Praxis werden Sie, wenn Sie Prädiktoren nahezu normalisieren, häufig Transformationen anwenden, die die funktionale Form für die Daten nahezu zutreffend machen. Ich würde behaupten, dass dies der Hauptgrund für die Transformation ist, trotz der enormen Betonung von Fehlerstruktur in vielen Texten. Mit anderen Worten, Prädiktoren zu protokollieren, um sie näher an die Normalität heranzuführen, kann das Richtige aus dem falschen Grund sein, wenn Sie sich der Linearität im transformierten Raum nähern.Xβ
In diesem Forum gibt es so viele außerordentlich gute Ratschläge zu Transformationen, dass ich mich darauf konzentriert habe, zu diskutieren, was Sie zitieren.
PS: Sie fügen eine Anweisung hinzu, die mit "Beispielsweise würde ein Vergleich von Protokollen mit Rohdaten bei einem Mittelwertvergleich offensichtlich einen signifikanten Unterschied ergeben." Mir ist nicht klar, was Sie vorhaben, aber der Vergleich von Werten für eine Gruppe mit Logarithmen von Werten für eine andere Gruppe wäre einfach unsinnig. Ich verstehe den Rest Ihrer Aussage überhaupt nicht.
quelle
Vor allem die beiden Zitate sind irreführend , wenn sich eine Transformation auf Daten angewendet Verwendung in einem Regressionsmodell bestimmt für nicht die getan , um variable PDFs mehr normal verteilt, ist es endlich soweit , das Modell zu machen Residuen mehr symmetrisch , da eine Annahme in der klassischen Regression dass die Fehler Gauß'sch sind. Dies impliziert ein tieferes Maß an Genauigkeit und Stringenz als nur die Symmetrisierung einer PDF.
Darüber hinaus sind beide Zitate insofern schwach, als keiner der beiden die Gründe für ihre Verschreibungen untersucht (zumindest auf der Grundlage der bereitgestellten Informationen). Zufällig bin ich mit beiden nicht einverstanden.
In der von Ihnen hervorgehobenen Passage behauptet das SPSS-Buch, dass Mischungen von Transformationen (z. B. natürliches Protokoll für eine Variable, Quadratwurzel für eine andere) nicht zulässig sind. Warum ist das illegal? Transformationsmischungen verletzen keine mir bekannten Regressionsannahmen. Bitte überprüfen Sie alle Regressionstexte auf Regressionsannahmen, um zu bestätigen, dass dies der Fall ist. Transformationsmischungen können hinsichtlich ihrer Interpretation ein inhaltliches deskriptives Problem darstellen, aber es geht nicht darum, ob Mischungen illegal sind oder nicht. Der SPSS-Typ liegt falsch.
Auch für den zweiten Text sind Transformationen eine Frage der Wahl des Analytikers - ob man sie überhaupt ausführt, alle Eingaben oder einige Variablen und nicht andere. Nichts davon widerspricht irgendwelchen Annahmen.
Ich denke, das zweite Zitat ist die Behauptung, "... um die mögliche Multikollinearität zu vermeiden ... nur ein Landnutzungsindikator (wurde verwendet) ..." Einige Analysten führen eine Dimensionsreduktionstechnik durch, bei der sie eine Reihe von Variablen faktorisch analysieren und für jeden Faktor die höchste Belastungsvariable auswählen. Diese Heuristik gibt es schon seit Jahren und ist keine, die ich verwende oder empfehle. Auch dies ist eine Frage der Präferenz und des Trainings der Analysten. Dieser Punkt ist jedoch nicht auf die Beantwortung Ihrer spezifischen Fragen ausgerichtet.
Letztendlich sind beide Zitate Aussagen der Autoren, wenn keine stichhaltigen Beweise vorliegen, die auf den bereitgestellten Informationen beruhen.
quelle