Was bedeutet „Normalisierung“ und wie kann überprüft werden, ob eine Stichprobe oder eine Verteilung normalisiert ist?

18

Ich habe eine Frage, in der nachgefragt wird, ob die Gleichverteilung ( Uniform(a,b) ) normalisiert ist.

  1. Was bedeutet es für eine Distribution, normalisiert zu werden?
  2. Und zweitens, wie können wir überprüfen, ob eine Distribution normalisiert ist oder nicht?

Ich verstehe, dass wir unter normalisierte Daten erhalten , aber hier wird nachgefragt, ob eine Distribution normalisiert ist oder nicht.

Xmeansd
Ada
quelle
3
Was es bedeutet, dass eine Verteilung normalisiert wird, ist nicht so einfach (und normalerweise wird nicht die Verteilung selbst normalisiert, sondern die Zufallsvariable). Zum Beispiel können im Fall der Uniform einige Leute "linear neu skaliert, um eine Standarduniform zu erhalten" meinen (dh zu erhalten) und b = 1 ) bedeuten, während eine andere Person "linear neu skaliert, um zu erhalten, wie um Mittelwert 0 und SD 1 zu erhalten ". Für die Uniform würde ich normalerweise die erste annehmen, aber wie Sie in der Antwort unten sehen, können andere Leute davon ausgehen, dass dies etwas anderes bedeutet. Die beste Möglichkeit besteht darin, die Person, die den Begriff verwendet, zu fragen, ob sie weniger mehrdeutig ist. a=0b=1
Glen_b
1
Die konventionelleren Terme werden standardisiert (um einen Mittelwert von Null und SD von Eins zu erreichen) und normalisiert (um den Bereich auf das Intervall oder eine Vektornorm auf 1 zu skalieren ). Somit ist die re-expression X ( X - Mittelwert ) / S D ist eine Standardisierung , während eine Dichte multipliziert f durch eine Konstante C[0,1]1X(Xmean)/SDfC zu machen ist eineNormalisierung, weilf ( x ) d x die L 1 -Norm von f ist . Cf(x)dx=1f(x)dxL1f
Whuber
Auch auf math.SE gefragt.
Dilip Sarwate
1
Bitte nicht kreuzen , @Ada. Das ist gegen die SE-Politik. Wenn Sie eine Frage auf einer Website veröffentlichen und dann denken, Sie hätten sie auf einer anderen Website veröffentlichen sollen, kennzeichnen Sie Ihre Frage und bitten Sie die Moderatoren, sie für Sie zu migrieren.
gung - Wiedereinsetzung von Monica

Antworten:

33

Leider werden Begriffe in verschiedenen Bereichen, von verschiedenen Personen innerhalb desselben Bereichs usw. unterschiedlich verwendet, daher bin ich mir nicht sicher, wie gut dies für Sie hier beantwortet werden kann. Sie sollten sicherstellen, dass Sie die Definition kennen, die Ihr Ausbilder / das Lehrbuch für "normalisiert" verwendet. Hier sind jedoch einige gebräuchliche Definitionen:

Zentriert: standardisiert: X - Mittelwert

Xmean
normalisiert:X-min(X)
Xmeansd
Normalisierenin diesem Sinne neu skaliertDaten zu dem Einheitsintervall. Durch die Standardisierung werdenIhre Daten inZ-Punkte umgewandelt, wie @Jeff bemerkt. Durch dieZentrierungwird der Mittelwert Ihrer Daten auf0 gesetzt.
Xmin(X)max(X)min(X)
z0

zz

Wie Sie diese Transformationen verifizieren können , hängt davon ab, was genau damit gemeint ist. Wenn Sie lediglich überprüfen möchten, ob der Code ordnungsgemäß ausgeführt wurde, können Sie Mittelwerte, SDs, Minimums und Maximums überprüfen.

gung - Wiedereinsetzung von Monica
quelle
1
Ich habe gesehen, dass normalisiert verwendet wird, um standardisiert vorzuschlagen, oder um eine Anpassung auf eine Standardnormalverteilung vorzuschlagen, dh , so dass es am wahrscheinlichsten ist , dass die drei normalisierten Werte missverstanden werden. Adas Kommentar zur Anwendung einer Normalisierungskonstante auf eine Wahrscheinlichkeitsfunktion ist eine weitere mögliche Interpretation. Φ1(F(X))
Henry
4

Indem Sie die Formel verwenden, die Sie für jede Punktzahl in Ihrer Stichprobe angegeben haben, konvertieren Sie sie alle in Z-Punkte .

01

Der Zweck dabei ist, alles in Einheiten relativ zur Standardabweichung Ihrer Probe anzugeben. Dies kann für eine Vielzahl von Zwecken nützlich sein, z. B. zum Vergleichen zweier unterschiedlicher Datensätze, die mit unterschiedlichen Einheiten (zentimeter und zoll, möglicherweise) bewertet wurden.

Es ist wichtig, dies nicht mit der Frage zu verwechseln, ob eine Verteilung normal ist , dh ob sie sich einer Gaußschen Verteilung annähert .

Jeff
quelle
Um zu überprüfen, ob die Gleichverteilung normalisiert wurde oder nicht, wäre es äquivalent zu sagen: E (X) = 0 und Var (X) = 1, wobei X ~ Gleich (a, b)?
2
Die Daten müssen nicht einmal aus einer einheitlichen Verteilung stammen, sie können aus einer beliebigen Verteilung stammen. Dies gilt auch nur für die von Ihnen angegebene Formel. Daten können auf andere Weise als mit Z-Scores normalisiert werden. Zum Beispiel wird gesagt, dass IQ-Scores mit einem Score von 100 und einer Standardabweichung von 15 normalisiert sind.
Jeff
1

Nach Rücksprache mit dem TA stellte sich die Frage, ob ob

f(x)dx=1

f(x)

Ada
quelle
2
1
Dies ist es, was wir überprüfen sollen. f (x) muss nicht unbedingt ein PDF sein und kann jede nicht negative Funktion sein. Für jede nicht negative Funktion, bei der das oben Genannte nicht erfüllt ist, können wir immer mit einer Normalisierungskonstante multiplizieren
Ada
1
Nicht immer. Zum Beispiel lassenf(x)=e-x, eine nicht negative Funktion, die für alle reellen Zahlen definiert ist: Es gibt keine Normalisierungskonstante. Aber wenn Sie, wie in Ihrer Fragestellung, wissen, dass "so und so ist das PDF für so und so eine Distribution", dann gibt es überhaupt nichts zu überprüfen: per Definition integriert es sich zu einer Einheit.
whuber
Es ist wahr, dass keine nicht negative Funktion die obige Bedingung erfüllen kann, selbst wenn wir sie mit einer Normalisierungskonstante multiplizieren.
Ada