Variablen werden häufig angepasst (z. B. standardisiert), bevor ein Modell erstellt wird. Wann ist dies eine gute und wann eine schlechte Idee?

56

Unter welchen Umständen möchten oder möchten Sie eine Variable vor der Modellanpassung skalieren oder standardisieren? Und welche Vor- / Nachteile hat die Skalierung einer Variablen?

modeling predictive-models feature-selection theory standardization Andrew
quelle

Sehr ähnliche Frage hier: stats.stackexchange.com/q/7112/3748 gibt es weitere Fragen, die Sie suchen?

Michael Bishop

Ja, ich würde es gerne für Modelle im Allgemeinen und nicht nur für das lineare Modell wissen

Andrew

1

Es gibt viele mögliche Modelle und Verwendungsmöglichkeiten von Modellen. Wenn Sie Ihre Fragen präzisieren und die Überschneidung mit anderen Fragen verringern können, ist dies besser.

Michael Bishop

Zusätzlich zum obigen Link ist diese Frage von Interesse : Wann-sollten-Sie-Ihre-Daten-zentrieren-wann-sollten-Sie-standardisieren .

gung - Wiedereinsetzung von Monica

37

Bei der Standardisierung dreht sich alles um die Gewichtung verschiedener Variablen für das Modell. Wenn Sie die Standardisierung "nur" aus Gründen der numerischen Stabilität durchführen, kann es Transformationen geben, die sehr ähnliche numerische Eigenschaften ergeben, aber eine andere physikalische Bedeutung haben, die für die Interpretation viel geeigneter sein könnte. Gleiches gilt für die Zentrierung, die in der Regel Bestandteil der Normung ist.

Situationen, in denen Sie wahrscheinlich standardisieren möchten:

Die Variablen sind unterschiedliche physikalische Größen
und die numerischen Werte liegen in sehr unterschiedlichen Größenordnungen
und es gibt kein "externes" Wissen, dass die Variablen mit hoher (numerischer) Variation als wichtiger angesehen werden sollten.

Situationen, in denen Sie möglicherweise nicht standardisieren möchten:

wenn die Variablen die gleiche physikalische Größe haben und (ungefähr) die gleiche Größe haben, z
- relative Konzentrationen verschiedener chemischer Spezies
- Extinktionen bei verschiedenen Wellenlängen
- Emissionsintensität (sonst gleiche Messbedingungen) bei unterschiedlichen Wellenlängen
Sie möchten definitiv keine Variablen standardisieren, die sich nicht zwischen den Samples ändern (Basiskanäle) - Sie würden nur das Messrauschen in die Luft jagen (Sie möchten sie möglicherweise stattdessen aus dem Modell ausschließen).
Wenn Sie solche physikalisch verwandten Variablen haben, ist das Messrauschen möglicherweise für alle Variablen ungefähr gleich, die Signalintensität variiert jedoch erheblich. Dh Variablen mit niedrigen Werten haben ein höheres relatives Rauschen. Standardisierung würde den Lärm in die Luft jagen. Mit anderen Worten, Sie müssen möglicherweise entscheiden, ob das relative oder das absolute Rauschen standardisiert werden soll.
Es kann physikalisch aussagekräftige Werte geben, mit denen Sie Ihren Messwert in Beziehung setzen können, z. B. verwenden Sie anstelle der durchgelassenen Intensität Prozent der durchgelassenen Intensität (Durchlässigkeit T).

Sie können etwas "dazwischen" tun und die Variablen transformieren oder die Einheit so wählen, dass die neuen Variablen immer noch physikalische Bedeutung haben, aber die Variation des numerischen Werts nicht so unterschiedlich ist, z

Wenn Sie mit Mäusen arbeiten, verwenden Sie statt der Basiseinheiten kg und m das Körpergewicht g und die Länge in cm (erwarteter Variationsbereich ca. 5 für beide) (erwarteter Variationsbereich 0,005 kg und 0,05 m - eine Größenordnung unterschiedlich).
Für die obige Durchlässigkeit T können Sie die Extinktion Betracht ziehen $A = -log_{10} T$

Ähnlich für die Zentrierung:

Möglicherweise sind (physikalisch / chemisch / biologisch / ...) aussagekräftige Basiswerte verfügbar (z. B. Kontrollen, Jalousien usw.).
Ist der Mittelwert tatsächlich sinnvoll? (Der durchschnittliche Mensch hat einen Eierstock und einen Hoden)

cbeleites unterstützt Monica
quelle

+1 und akzeptiert wegen der hilfreichen Liste, wann und wann nicht zu standardisieren, danke

Andrew

6

+1 für "Der durchschnittliche Mensch hat einen Eierstock und einen Hoden" (& auch für den Rest der Antwort ;-).

gung - Wiedereinsetzung von Monica

1

@cbeleites Gibt es eine Möglichkeit, dass Sie einen Link zu einer Ressource bereitstellen, die die Basiskanäle in dem Kontext erklärt, den Sie in Ihrer Antwort verwendet haben? Ich habe den Begriff zuvor noch nicht gehört und erhalte Suchergebnisse, die für das Verständnis Ihrer Verwendung des Begriffs hier nicht hilfreich sind. Vielen Dank!

Mahonya

1

@sarikan: werfen sie einen blick auf fig. 1 in diesem artikel: americanlaboratory.com/913-Technical-Articles/… aus biologischen und physikalisch-chemischen gründen werden im bereich zwischen 2000 und 2700 cm keine signale erwartet. Dieser Bereich kann verwendet werden, um die Basislinie (aus physikalischen Effekten, die nicht Raman sind) zu schätzen, die dann subtrahiert wird. Diese Variationen sind dann ungefähr Null plus etwas Rauschen.

^{- 1}

$^{-1}$

cbeleites unterstützt Monica

9

Vor dem Standardisieren frage ich mich immer: "Wie interpretiere ich die Ausgabe?" Wenn es eine Möglichkeit gibt, Daten ohne Transformation zu analysieren, ist dies möglicherweise aus rein interpretatorischer Sicht vorzuziehen.

jebyrnes
quelle

7

Im Allgemeinen empfehle ich keine Skalierung oder Standardisierung, es sei denn, dies ist unbedingt erforderlich. Der Vorteil oder die Attraktivität eines solchen Prozesses besteht darin, dass, wenn eine erklärende Variable eine völlig andere physikalische Dimension und Größe als die Antwortvariable hat, die Skalierung durch Division durch Standardabweichung hinsichtlich der numerischen Stabilität hilfreich sein kann und es ermöglicht, Effekte über mehrere zu vergleichen erklärende Variablen. Bei der gängigsten Standardisierung ist der Variableneffekt das Ausmaß der Änderung der Antwortvariablen, wenn die erklärende Variable um eine Standardabweichung zunimmt. es zeigt auch an, dass die Bedeutung des Variableneffekts (der Änderungsbetrag in der Antwortvariablen, wenn die erklärende Variable um eine Einheit zunimmt) verloren gehen würde, obwohl der statistische Wert für die erklärende Variable unverändert bleibt. Jedoch, Wenn die Interaktion in einem Modell berücksichtigt wird, kann die Skalierung selbst für statistische Tests sehr problematisch sein, da eine stochastische Skalierungsanpassung bei der Berechnung des Standardfehlers des Interaktionseffekts eine Komplikation darstellt (Preacher, 2003). Aus diesem Grund wird eine Skalierung mit Standardabweichung (oder Standardisierung / Normalisierung) im Allgemeinen nicht empfohlen, insbesondere wenn es sich um Interaktionen handelt.

Preacher, KJ, Curran, PJ, und Bauer, DJ, 2006. Computertools zur Untersuchung von Interaktionseffekten in multipler linearer Regression, Mehrebenenmodellierung und Latentkurvenanalyse. Journal of Educational and Behavioral Statistics, 31 (4), 437-448.

Bluepole
quelle

4

Ich stelle Ihre Behauptung in Frage, dass die Standardisierung von Prädiktoren "im Allgemeinen nicht empfohlen wird, insbesondere wenn es um Interaktionen geht". Weder Gelman und Hill noch Raudenbush & Bryk erwähnen dieses Anliegen in ihren Texten. Aber wenn ich die Gelegenheit dazu habe, werde ich die von Ihnen genannten Referenzen mit Interesse betrachten.

Michael Bishop

Wenn wir das Kalibrierungsuniversum std als Skalierungsvariable verwenden, ist die Skalierung nicht stochastisch.

Adam

Kann jemand bestätigen, ob die Skalierung bei Interaktionsbedingungen schädlich ist? Dies scheint in der obigen Diskussion nicht gelöst worden zu sein.

Talik3233

Variablen werden häufig angepasst (z. B. standardisiert), bevor ein Modell erstellt wird. Wann ist dies eine gute und wann eine schlechte Idee?

Antworten: