Bei der Arbeit haben wir darüber gesprochen, da mein Chef noch nie von Normalisierung gehört hat. In der linearen Algebra scheint sich Normalisierung auf die Teilung eines Vektors durch seine Länge zu beziehen. Und in der Statistik scheint sich Standardisierung auf die Subtraktion eines Mittels zu beziehen, das dann durch seine SD dividiert wird. Aber sie scheinen auch mit anderen Möglichkeiten austauschbar zu sein.
Wenn Sie eine Art Universal-Partitur erstellen, die aus verschiedenen Metriken besteht, die unterschiedliche Mittel und SDs haben, würden Sie sie normalisieren, standardisieren oder etwas anderes? Eine Person sagte mir, dass es nur darum geht, jede Metrik einzeln durch ihre SD zu dividieren. Dann summiere die beiden. Daraus ergibt sich eine Gesamtbewertung, anhand derer beide Metriken beurteilt werden können.
Angenommen, Sie hatten die Anzahl der Personen, die mit der U-Bahn zur Arbeit fuhren (in NYC), und die Anzahl der Personen, die zur Arbeit fuhren (in NYC).
Wenn Sie eine allgemeine Bewertung erstellen möchten, um Verkehrsschwankungen schnell zu melden, können Sie nicht einfach und hinzufügen, da es VIEL mehr Personen geben wird, die mit dem Zug fahren. In NYC leben 8 Millionen Menschen plus Touristen. Das sind Millionen von Menschen, die täglich mit dem Zug fahren, und Hunderttausende von Menschen in Autos. Sie müssen also in einem ähnlichen Maßstab transformiert werden, um verglichen zu werden.
Wenn
und
Würden Sie & dann summieren? Würden Sie & dann summieren? Oder würden Sie dann jede durch ihre jeweilige SD-Summe dividieren? Um zu einer Zahl zu gelangen, die, wenn sie schwankt, die gesamten Verkehrsschwankungen darstellt.
Jeder Artikel oder Kapitel von Büchern als Referenz wäre sehr dankbar. VIELEN DANK!
Auch hier ist ein weiteres Beispiel dafür, was ich versuche zu tun.
Stellen Sie sich vor, Sie sind Studiendekan und besprechen die Zulassungsvoraussetzungen. Möglicherweise möchten Sie Schüler mit mindestens einem bestimmten GPA und einem bestimmten Testergebnis. Es wäre schön, wenn sie beide auf der gleichen Skala wären, denn dann könnten Sie die beiden einfach addieren und sagen: "Jeder mit mindestens einer 7.0 kann zugelassen werden." Auf diese Weise kann ein angehender Student mit einem GPA-Wert von 4,0 eine Testnote von 3,0 erreichen und trotzdem zugelassen werden. Umgekehrt, wenn jemand einen 3,0-GPA hatte, konnte er immer noch mit einem 4,0-Testergebnis zugelassen werden.
Aber so ist es nicht. Die ACT ist auf einer 36-Punkte-Skala und die meisten GPAs sind auf 4.0 (einige sind 4.3, ja ärgerlich). Da ich ACT und GPA nicht einfach hinzufügen kann, um eine Art Universal Score zu erhalten, wie kann ich sie transformieren, damit sie hinzugefügt werden können, und so einen Universal Admission Score erstellen. Und dann könnte ich als Dekan einfach automatisch jeden akzeptieren, der eine bestimmte Punktzahl überschreitet. Oder sogar automatisch alle akzeptieren, deren Punktzahl unter den besten 95% liegt ... diese Art von Dingen.
Wäre das Normalisierung? Standardisierung? oder einfach durch ihre SD dividieren und dann summieren?
Antworten:
Durch die Normalisierung werden die Werte in einen Bereich von [0,1] skaliert. Dies kann in einigen Fällen nützlich sein, in denen alle Parameter dieselbe positive Skala haben müssen. Die Ausreißer aus dem Datensatz gehen jedoch verloren.
Standardization rescales Daten einen Mittelwert haben ( ) von 0 und eine Standardabweichung ( ) von 1 (Einheitsvarianz).μ σ
Für die meisten Anwendungen wird eine Standardisierung empfohlen.
quelle
In der Geschäftswelt bedeutet "Normalisierung" normalerweise, dass der Wertebereich "auf 0,0 bis 1,0 normalisiert" ist. "Standardisierung" bedeutet normalerweise, dass der Wertebereich "standardisiert" ist, um zu messen, um wie viele Standardabweichungen der Wert vom Mittelwert abweicht. Dem würde jedoch nicht jeder zustimmen. Erklären Sie Ihre Definitionen am besten, bevor Sie sie verwenden.
In jedem Fall muss Ihre Transformation etwas Nützliches bieten.
Haben Sie in Ihrem Zug / Auto-Beispiel etwas davon, zu wissen, wie viele Standardabweichungen von ihrem Mittelwert jeder Wert liegt? Wenn Sie diese "standardisierten" Maße als xy-Diagramm darstellen, wird möglicherweise eine Korrelation angezeigt (siehe die erste Grafik rechts):
http://en.wikipedia.org/wiki/Correlation_and_dependence
Wenn ja, bedeutet das etwas für Sie?
Was haben diese Skalen gemeinsam, wenn Sie einen GPA von einer Skala zu einer anderen Skala "gleichsetzen" möchten? Mit anderen Worten, wie können Sie diese Minima in Äquivalente und die Maxima in Äquivalente umwandeln?
Hier ist ein Beispiel für "Normalisierung":
Normalisierungslink
Ist es sinnvoll, die ACT- und GPA-Werte unterschiedlich zu wägen, sobald Sie Ihre GPA- und ACT-Werte in austauschbarer Form erhalten? Wenn ja, welche Gewichtung bedeutet Ihnen etwas?
Bearbeiten 1 (05/03/2011) ======================================== =
Zuerst würde ich die von whuber oben vorgeschlagenen Links überprüfen . Die Quintessenz ist, dass Sie in beiden Ihrer Zwei-Variablen-Probleme eine "Äquivalenz" zwischen einer Variablen und der anderen finden müssen. Und eine Möglichkeit, eine Variable von der anderen zu unterscheiden. Mit anderen Worten, selbst wenn Sie dies zu einer einfachen linearen Beziehung vereinfachen können, benötigen Sie "Gewichte", um eine Variable von der anderen zu unterscheiden.
Hier ist ein Beispiel für ein Problem mit zwei Variablen:
Multi-Attribute-Dienstprogramme
Wenn Sie auf der letzten Seite sagen können, dass standardisierter Zugverkehr im
U1(x)
Vergleich zu standardisiertem AutoverkehrU2(y)
"additiv unabhängig" ist, können Sie möglicherweise mit einer einfachen Gleichung davonkommen, wie zum Beispiel:Wobei k1 = 0,5 bedeutet, dass Sie dem standardisierten Auto- / Zugverkehr gegenüber gleichgültig sind. Ein höherer k1 würde bedeuten, dass der Zugverkehr
U1(x)
wichtiger ist.Wenn diese beiden Variablen jedoch nicht "additiv unabhängig" sind, müssen Sie eine kompliziertere Gleichung verwenden. Eine Möglichkeit ist auf Seite 1 dargestellt:
In beiden Fällen müssen Sie sich ein
U(x, y)
sinnvolles Hilfsprogramm einfallen lassen .Die gleichen allgemeinen Gewichtungs- / Vergleichskonzepte gelten für Ihr GPA / ACT-Problem. Auch wenn sie "normalisiert" und nicht "standardisiert" sind.
Eine letzte Ausgabe. Ich weiß, dass Ihnen das nicht gefallen wird, aber die Definition des Begriffs "additiv unabhängig" finden Sie auf Seite 4 des folgenden Links. Ich habe nach einer weniger geekigen Definition gesucht, aber keine gefunden. Sie könnten sich umsehen, um etwas Besseres zu finden.
Additiv unabhängig
Zitiere den Link:
Wie oben in dieser Antwort vorgeschlagen, kann eine Korrelation auftreten, wenn Sie einen standardisierten Zugverkehr im Vergleich zu einem standardisierten Autoverkehr in einem xy-Diagramm darstellen. Wenn ja, dann stecken Sie mit der obigen nichtlinearen Nutzengleichung oder etwas ähnlichem fest.
quelle
Die Antwort ist einfach, aber Sie werden es nicht mögen: es kommt darauf an. Wenn Sie 1 Standardabweichung von beiden Werten gleich bewerten, ist die Standardisierung der richtige Weg (Hinweis: Sie studieren tatsächlich , weil Sie durch eine Schätzung der SD der Grundgesamtheit dividieren ).
Andernfalls ist die Standardisierung wahrscheinlich ein guter erster Schritt. Anschließend können Sie einem der Punkte mehr Gewicht verleihen, indem Sie ihn mit einem gut ausgewählten Faktor multiplizieren.
quelle
Verwenden Sie den geometrischen Mittelwert, um das GPA / ACT- oder das Zug / Auto-Problem zu lösen .
n√ (a1 × a2 × ... × an)
Wo
a*
ist der Wert aus der Verteilung undn
ist der Index der Verteilung.Dieser geometrische Mittelwert stellt sicher, dass jeder Wert über seine Skala hinaus gleichermaßen zum Mittelwert beiträgt. Weitere Informationen finden Sie unter Geometrischer Mittelwert
quelle
In meinem Bereich der Datenwissenschaft ist die Normalisierung eine Transformation von Daten, die einen einfachen Vergleich der nachgelagerten Daten ermöglicht. Es gibt viele Arten von Normalisierungen. Scaling ist einer von ihnen. Sie können die Daten auch protokollieren oder andere Aktionen ausführen. Die Art der Normalisierung, die Sie verwenden, hängt vom gewünschten Ergebnis ab, da alle Normalisierungen die Daten in etwas anderes umwandeln.
Hier einige Beispiele für die Normalisierung. Skalierungsnormalisierungen Quantilnormalisierung
quelle