Sehr oft stoße ich bei der Untersuchung neuer statistischer Methoden und Konzepte auf die quadratische Differenz (oder den mittleren quadratischen Fehler oder eine Vielzahl anderer Epitheta). Nur als Beispiel wird Pearsons r auf der Grundlage der mittleren quadratischen Differenz von der Regressionslinie, auf der die Punkte liegen, bestimmt. Bei ANOVAs sehen Sie die Summe der Quadrate und so weiter.
Wenn Sie nun alles quadrieren, stellen Sie sicher, dass Daten mit Ausreißern wirklich bestraft werden. Warum wird der Exponent jedoch genau 2 verwendet? Warum nicht 2.1 oder e oder pi oder was auch immer? Gibt es einen besonderen Grund, warum 2 verwendet wird, oder handelt es sich nur um eine Konvention? Ich vermute, dass die Erklärung etwas mit der Glockenkurve zu tun hat, aber ich bin mir ziemlich sicher.
quelle
Antworten:
Eine entscheidungstheoretische Herangehensweise an die Statistik liefert eine tiefe Erklärung. Das Quadrieren von Differenzen ist ein Proxy für eine Vielzahl von Verlustfunktionen, die (wann immer sie gerechtfertigt sind) zu einer erheblichen Vereinfachung der möglichen statistischen Verfahren führen, die zu berücksichtigen sind.
Leider ist es sehr aufwändig zu erklären, was dies bedeutet und warum dies der Fall ist. Die Notation kann schnell unverständlich werden. Ich möchte hier also nur die Hauptideen skizzieren, ohne sie näher zu erläutern. Weitere Informationen finden Sie in den Referenzen.
Ein standardmäßiges, reichhaltiges Datenmodell dass es sich um eine Realisierung einer (reellen, vektorwertigen) Zufallsvariablen X handelt, deren Verteilung F bekanntermaßen nur ein Element einer Menge von Ω von Verteilungen ist, den Zuständen der Natur . Eine statistische Prozedur ist eine Funktion t von x, die in einem Satz von Entscheidungen D , dem Entscheidungsraum , Werte annimmt .x X F Ω t x D
Beispielsweise würde in einem Vorhersage- oder Klassifizierungsproblem aus einer Vereinigung eines "Trainingssatzes" und eines "Testsatzes von Daten" bestehen, und t wird x in einen Satz von vorhergesagten Werten für den Testsatz abbilden. Die Menge aller möglichen vorhergesagten Werten wäre D .x t x D
Eine vollständige theoretische Diskussion der Verfahren muss randomisierte Verfahren berücksichtigen . Eine randomisierte Prozedur wählt aus zwei oder mehr möglichen Entscheidungen gemäß einer Wahrscheinlichkeitsverteilung (die von den Daten abhängt ). Es verallgemeinert die intuitive Idee, dass, wenn die Daten nicht zwischen zwei Alternativen zu unterscheiden scheinen, Sie anschließend "eine Münze werfen", um sich für eine bestimmte Alternative zu entscheiden. Viele Menschen lehnen randomisierte Verfahren ab und lehnen es ab, Entscheidungen auf solch unvorhersehbare Weise zu treffen.x
Das Unterscheidungsmerkmal der Entscheidungstheorie ist die Verwendung einer Verlustfunktion .W Für jeden Naturzustand und Entscheidung d ∈ D ist der VerlustF∈Ω d∈D
ist ein numerischer Wert, der angibt, wie "schlecht" es wäre, eine Entscheidung zu treffen, wenn der wahre Naturzustand F ist : kleine Verluste sind gut, große Verluste sind schlecht. In einer Hypothesentestsituation hat beispielsweise D die beiden Elemente "annehmen" und "ablehnen" (die Nullhypothese). Die Verlustfunktion betont das Treffen der richtigen Entscheidung: Sie wird auf Null gesetzt, wenn die Entscheidung korrekt ist, und ist ansonsten eine Konstante w . ( „Dies ist eine sogenannte 0 - 1 Konkret: alle schlechten Entscheidungen sind gleich schlecht und alle gute Entscheidungen sind gleich gut Verlustfunktion“.) W ( F , akzeptiert ) = 0 , wennd F D w 0−1 W(F, accept)=0 steht in der Nullhypothese und W ( F , reject ) = 0, wenn F in der Alternativhypothese steht.F W(F, reject)=0 F
Bei Verwendung der Prozedur kann der Verlust für die Daten x, wenn der wahre Naturzustand F ist, W ( F , t ( x ) ) geschrieben werden . Dies macht den Verlust W ( F , t ( X ) ) zu einer Zufallsvariablen, deren Verteilung durch (das Unbekannte) F bestimmt wird .t x F W(F,t(x)) W(F,t(X)) F
Der erwartete Verlust eines Verfahrens wird seine genannte Risiko , r t . Die Erwartung verwendet den wahren Naturzustand F , der daher explizit als Index des Erwartungsoperators erscheint. Wir betrachten das Risiko als eine Funktion von F und betonen dies mit der Notation:t rt F F
Bessere Verfahren haben ein geringeres Risiko. Der Vergleich von Risikofunktionen ist somit die Grundlage für die Auswahl guter statistischer Verfahren. Da die Neuskalierung aller Risikofunktionen durch eine gemeinsame (positive) Konstante keine Vergleiche verändern würde, spielt die Skala von keine Rolle: Wir können sie mit jedem beliebigen positiven Wert multiplizieren. Insbesondere bei der Multiplikation W von 1 / w wir immer nehmen können w = 1 für eine 0 - 1 Verlustfunktion (rechtfertigt seinen Namen).W W 1/w w=1 0−1
Um das Hypothesentestbeispiel fortzusetzen, das eine - Verlustfunktion veranschaulicht , implizieren diese Definitionen das Risiko, dass ein F in der Nullhypothese die Wahrscheinlichkeit ist, dass die Entscheidung "zurückgewiesen" wird, während das Risiko eines F in der Alternative das Risiko ist Chance, dass die Entscheidung "akzeptieren" ist. Der Maximalwert (über alle F in der Nullhypothese) ist die Testgröße , während der Teil der Risikofunktion auf der alternativen Hypothese definiert ist das Komplement der Testleistung ( Leistung t ( F ) = 1 - r t ( F )0−1 F F F powert(F)=1−rt(F) ). Darin sehen wir, wie die Gesamtheit der klassischen (frequentistischen) Hypothesentestungstheorie eine bestimmte Möglichkeit darstellt, Risikofunktionen für eine bestimmte Art von Verlust zu vergleichen.
Übrigens ist alles, was bisher präsentiert wurde, perfekt mit allen gängigen Statistiken kompatibel, einschließlich des Bayes'schen Paradigmas. Zusätzlich führt die Bayes'sche Analyse eine "vorherige" Wahrscheinlichkeitsverteilung über und vereinfacht damit den Vergleich von Risikofunktionen: Die möglicherweise komplizierte Funktion r t kann durch ihren erwarteten Wert in Bezug auf die vorherige Verteilung ersetzt werden. Somit sind alle Prozeduren t durch eine einzige Zahl r t gekennzeichnet ; ein Bayes-Verfahren (das normalerweise einzigartig ist) minimiert r t . Die Verlustfunktion spielt immer noch eine wesentliche Rolle bei der Berechnung von r t .Ω rt t rt rt rt
Es gibt einige (unvermeidbare) Kontroversen bezüglich der Verwendung von Verlustfunktionen. Wie wählt man ? Es ist im Wesentlichen einzigartig für Hypothesentests, aber in den meisten anderen statistischen Einstellungen sind viele Auswahlmöglichkeiten möglich. Sie spiegeln die Werte des Entscheiders wider. Wenn es sich bei den Daten beispielsweise um physiologische Messungen eines medizinischen Patienten handelt und die Entscheidungen "behandeln" oder "nicht behandeln" lauten, muss der Arzt die Konsequenzen beider Maßnahmen berücksichtigen und abwägen. Wie die Folgen abgewogen werden, hängt möglicherweise von den Wünschen des Patienten, seinem Alter, seiner Lebensqualität und vielen anderen Faktoren ab. Die Wahl einer Verlustfunktion kann schwierig und sehr persönlich sein. Normalerweise sollte es nicht dem Statistiker überlassen werden!W
Eine Sache, die wir wissen möchten, ist, wie sich die Wahl des besten Verfahrens ändern würde, wenn sich der Verlust ändert. Es stellt sich heraus, dass in vielen gängigen, praktischen Situationen ein gewisses Maß an Abweichungen toleriert werden kann, ohne dass sich das beste Verfahren ändert. Diese Situationen sind durch folgende Bedingungen gekennzeichnet:
Der Entscheidungsraum ist eine konvexe Menge (oft ein Intervall von Zahlen). Dies bedeutet, dass jeder Wert, der zwischen zwei Entscheidungen liegt, auch eine gültige Entscheidung ist.
Der Verlust ist Null, wenn die bestmögliche Entscheidung getroffen wird und ansonsten zunimmt (um Diskrepanzen zwischen der getroffenen Entscheidung und der bestmöglichen Entscheidung für den wahren - aber unbekannten - Zustand der Natur widerzuspiegeln).
Der Verlust ist eine differenzierbare Funktion der Entscheidung (zumindest lokal nahe der besten Entscheidung). Dies bedeutet , es kontinuierlich ist - es ist nicht die Art und Weise ein springt Verlust tut - aber es bedeutet auch , dass es relativ wenig ändert , wenn die Entscheidung in der Nähe des besten.0−1
Wenn diese Bedingungen erfüllt sind, verschwinden einige Komplikationen beim Vergleich von Risikofunktionen. Die Differenzierbarkeit und Konvexität von ermöglicht es uns, Jensens Ungleichung anzuwenden, um dies zu zeigenW
(1) Randomisierte Verfahren müssen nicht berücksichtigt werden [Lehmann, Folgerung 6.2].
(2) Wird ein Verfahren als das beste Risiko für ein solches W angesehen , so kann es zu einem Verfahren t ∗ verbessert werden, das nur von einer ausreichenden Statistik abhängt und für alle solche W eine mindestens ebenso gute Risikofunktion hat [Kiefer , p. 151].t W t∗ W
Angenommen, ist die Menge der Normalverteilungen mit dem Mittelwert μ (und der Einheitsvarianz). Dies identifiziert Ω mit der Menge aller reellen Zahlen, so dass ich (unter Missbrauch der Notation) auch " μ " verwenden werde, um die Verteilung in Ω mit dem Mittelwert μ zu identifizieren . Sei X eine iid-Stichprobe der Größe n aus einer dieser Verteilungen. Angenommen, das Ziel ist die Schätzung von μ . Dies identifiziert den Entscheidungsraum D mit allen möglichen Werten von μ (jede reelle Zahl). Vermietung & mgr eine willkürliche Entscheidung bezeichnet, ist der Verlust eine FunktionΩ μ Ω μ Ω μ X n μ D μ μ^
mit , wenn und nur wenn μ = μ . Die vorhergehenden Annahmen implizieren (über Taylors Theorem), dassW(μ,μ^)=0 μ=μ^
für eine konstant positive Zahl . (The little-o notation " o ( y ) p " ist jede Funktion f , wo der Grenzwert von f ( y ) / y p ist 0 als y → 0 ) . Wie bereits erwähnt, sind wir frei neu zu skalieren W zu machen w 2 = 1 . Für diese Familie Ω ist der Mittelwert von X , geschrieben ˉ X , eine ausreichende Statistik. Das vorige Ergebnis (zitiert nach Kiefer) sagt jeder Schätzer ausw2 o(y)p f f(y)/yp 0 y→0 W w2=1 Ω X X¯ , das eine willkürliche Funktion der n Variablen ( x 1 , … , x n ) sein könnte , die für ein solches W gut ist , kann in einen Schätzer umgewandelt werden, der nur von ˉ x abhängt, das für alle W mindestens so gut ist.μ n (x1,…,xn) W x¯ W
Das, was in diesem Beispiel erreicht wurde, ist typisch: Die äußerst komplizierte Menge möglicher Prozeduren, die ursprünglich aus möglicherweise randomisierten Funktionen von Variablen bestand, wurde auf eine viel einfachere Menge von Prozeduren reduziert, die aus nicht randomisierten Funktionen einer einzelnen Variablen bestand ( oder mindestens eine geringere Anzahl von Variablen in Fällen, in denen ausreichende Statistiken multivariat sind). Und das, ohne sich darum zu kümmern, wie genau die Verlustfunktion des Entscheiders aussieht, vorausgesetzt, sie ist konvex und differenzierbar.n
Was ist die einfachste derartige Verlustfunktion? Derjenige, der den Restbegriff ignoriert, macht ihn natürlich zu einer rein quadratischen Funktion. Andere Verlustfunktionen in derselben Klasse umfassen Potenzen von , die größer als 2 (wie beispielsweise die 2,1 , e , und & pgr; in der Frage erwähnt), exp ( Z ) - 1 - z , und viele mehr.z=|μ^−μ| 2 2.1,e, π exp(z)−1−z
Die blaue (obere) Kurve zeigt während die rote (untere) Kurve z 2 zeigt . Da die blaue Kurve auch ein Minimum bei 0 hat , differenzierbar und konvex ist, gelten viele der schönen Eigenschaften statistischer Verfahren, die der quadratische Verlust (die rote Kurve) bietet, auch für die Funktion des blauen Verlusts2(exp(|z|)−1−|z|) z2 0 (obwohl global die Exponentialfunktion gilt) verhält sich anders als die quadratische Funktion).
Diese Ergebnisse (obwohl offensichtlich begrenzt durch die auferlegten Bedingungen) erklären, warum quadratischer Verlust in der statistischen Theorie und Praxis allgegenwärtig ist: In begrenztem Umfang ist er ein analytisch geeigneter Proxy für jede konvexe differenzierbare Verlustfunktion.
Der quadratische Verlust ist keineswegs der einzige oder sogar der beste zu berücksichtigende Verlust. Tatsächlich schreibt Lehman das
[Lehman, Abschnitt 1.6; mit einigen Änderungen der Notation.]
Die Betrachtung alternativer Verluste eröffnet eine Fülle von Möglichkeiten: Quantilregressionen, M-Schätzer, belastbare Statistiken und vieles mehr können auf diese entscheidungstheoretische Weise festgelegt und mithilfe alternativer Verlustfunktionen gerechtfertigt werden. Ein einfaches Beispiel finden Sie unter Perzentilverlustfunktionen .
Verweise
Jack Carl Kiefer, Einführung in die statistische Inferenz. Springer-Verlag 1987.
EL Lehmann, Theorie der Punktschätzung . Wiley 1983.
quelle
Die geometrischen Eigenschaften für diese Abstandsmetrik sind so, dass sie einfach zu verwenden sind.
Und natürlich einfachere Mathematik, wenn Sie für die meisten Probleme eine analytische Lösung haben.
quelle