Ich habe einen Datensatz mit einer Reihe von Funktionen. Einige von ihnen sind binär aktiv oder abgefeuert, 0 = inaktiv oder ruhend), und der Rest ist ein reeller Wert, z . B. 4564.342 .
Ich möchte diese Daten einem maschinellen Lernalgorithmus zuführen , damit ich alle wirklich wertvollen Funktionen -bewerten kann. Ich bekomme sie zwischen den Bereichen 3 und - 2 ungefähr. Nun werden die binären Werte sind auch z -scored, deshalb werden die Nullen werden - 0.222 und diejenigen geworden 0,5555 .
Ist es sinnvoll, solche binären Variablen zu standardisieren?
Eine binäre Variable mit den Werten 0, 1 kann (normalerweise) auf (value - mean) / SD skaliert werden, was vermutlich Ihr Z-Score ist.
Die offensichtlichste Einschränkung ist, dass, wenn Sie zufällig alle Nullen oder alle Einsen erhalten, das blinde Einstecken von SD bedeuten würde, dass der Z-Score unbestimmt ist. Es gibt einen Fall für die Zuweisung von Null, sofern value - mean identisch Null ist. Aber viele statistische Dinge machen nicht viel Sinn, wenn eine Variable wirklich eine Konstante ist. Im Allgemeinen besteht jedoch ein höheres Risiko, dass die Scores instabil und / oder nicht gut bestimmt sind, wenn die SD klein ist.
Ein Problem bei der besseren Beantwortung Ihrer Frage ist genau der von Ihnen in Betracht gezogene "Algorithmus für maschinelles Lernen". Es hört sich so an, als ob es sich um einen Algorithmus handelt, der Daten für mehrere Variablen kombiniert. Daher ist es normalerweise sinnvoll, sie in ähnlichen Maßstäben bereitzustellen.
(SPÄTER) Während das Original-Poster nacheinander Kommentare hinzufügt, verändert sich ihre Frage. Ich halte immer noch (Wert - Mittelwert) / SD für sinnvoll (dh nicht unsinnig) für binäre Variablen, solange die SD positiv ist. Die logistische Regression wurde jedoch später als die Anwendung bezeichnet, und für diese gibt es keinen theoretischen oder praktischen Gewinn (und in der Tat einen gewissen Verlust an Einfachheit) außer der Eingabe von binären Variablen als 0, 1. Ihre Software sollte in der Lage sein, gut damit umzugehen Das; Wenn nicht, geben Sie diese Software zugunsten eines Programms auf, das dies kann. In Bezug auf die Titelfrage: kann ja; sollte nicht.
quelle
Ein schönes Beispiel, bei dem es nützlich sein kann, auf etwas andere Weise zu standardisieren, finden Sie in Abschnitt 4.2 von Gelman and Hill ( http://www.stat.columbia.edu/~gelman/arm/ ). Dies ist meistens dann der Fall, wenn die Interpretation der Koeffizienten von Interesse ist und es möglicherweise nicht viele Prädiktoren gibt.
quelle
Was möchten Sie standardisieren, eine binäre Zufallsvariable oder eine Proportion?
quelle
In der logistischen Regression können binäre Variablen standardisiert werden, um sie mit kontinuierlichen Variablen zu kombinieren, wenn Sie allen eine nicht informative Priorität geben möchten, z. B. N ~ (0,5) oder Cauchy ~ (0,5). Es wird empfohlen, die Standardisierung wie folgt durchzuführen: Nehmen Sie die Gesamtzählung und geben Sie an
1 = Anteil von 1
0 = 1 - Anteil der Einsen.
-----
Edit: Eigentlich hatte ich überhaupt nicht recht, es ist keine Standardisierung, sondern eine Verschiebung um 0 zu zentrieren und um 1 in der unteren und oberen Bedingung zu unterscheiden. Wir können eine zentrierte "Firma A" -Variable definieren, um die Werte -0,3 und 0,7 anzunehmen.
quelle