Ich habe versucht, die Ungleichung festzustellen
Dabei ist der Stichprobenmittelwert und die Standardabweichung der Stichprobe, dh . SS=√
Es ist leicht zu erkennen, dass und so aber dies ist nicht sehr nahe an dem, wonach ich gesucht habe, und es ist auch keine nützliche Grenze. Ich habe mit den Cauchy-Schwarz- und den Dreiecksungleichungen experimentiert, bin aber nirgendwo hingegangen. Es muss einen subtilen Schritt geben, den ich irgendwo vermisse. Ich würde mich über Hilfe freuen, danke.| T i | < √
Nachdem das Problem durch Routineverfahren vereinfacht wurde, kann es gelöst werden, indem es in ein duales Minimierungsprogramm umgewandelt wird, das eine bekannte Antwort mit einem elementaren Beweis hat. Vielleicht ist diese Dualisierung der "subtile Schritt", auf den sich die Frage bezieht. Die Ungleichung kann auch rein mechanisch durch Maximierung von festgestellt werden über Lagrange-Multiplikatoren.|Ti|
Zunächst biete ich jedoch eine elegantere Lösung an, die auf der Geometrie der kleinsten Quadrate basiert. Es erfordert keine vorläufige Vereinfachung und ist fast unmittelbar und liefert eine direkte Intuition in das Ergebnis. Wie in der Frage vorgeschlagen, reduziert sich das Problem auf die Cauchy-Schwarz-Ungleichung.
Geometrische Lösung
Betrachten Sie als einen dimensionalen Vektor im euklidischen Raum mit dem üblichen Punktprodukt. Sei der Basisvektor und . Schreiben Sie und für die orthogonalen Projektionen von und in das orthogonale Komplement von . (In der statistischen Terminologie sind sie die Residuen in Bezug auf die .) Dann, da undn y = ( 0 , 0 , ... , 0 , 1 , 0 , ... , 0 ) i th 1 = ( 1 , 1 , ... , 1 ) x y x y 1 X i - ˉ X =x=(X1,X2,…,Xn) n y=(0,0,…,0,1,0,…,0) ith 1=(1,1,…,1) x^ y^ x y 1 S=| | x | | /√Xi−X¯=x^⋅y S=||x^||/n−1−−−−−√ ,
ist die Komponente von in der Richtung . Durch Cauchy-Schwarz wird es genau maximiert, wenn parallel zu , für die QED. x x y =(-1,-1,...,-1,n-1,-1,-1,...,-1)/nTi=±√y^ x^ x^ y^=(−1,−1,…,−1,n−1,−1,−1,…,−1)/n
Im Übrigen bietet diese Lösung eine umfassende Charakterisierung aller Fälle, in denenwird maximiert: Sie sind alle von der Form|Ti|
für alle echten .μ,σ
Diese Analyse lässt sich leicht auf den Fall verallgemeinern, in dem durch eine beliebige Gruppe von Regressoren ersetzt wird. Offensichtlich ist das Maximum von proportional zur Länge des Residuums von ,.T i y | | y | |{1} Ti y ||y^||
Vereinfachung
Da bei Änderungen von Ort und Maßstab unveränderlich ist, können wir ohne Verlust der Allgemeinheit annehmen, dass die Summe zu Null und ihre Quadrate zu summieren . Dies identifiziertmit, da (das mittlere Quadrat) . Das Maximieren ist gleichbedeutend mit dem Maximieren von . Auch durch geht keine Allgemeinheit verloren , da die austauschbar sind.X i n - 1 | T i | | X i | S 1 | T i | 2 = T 2 i = X 2 i i = 1 X iTi Xi n−1 |Ti| |Xi| S 1 |Ti|2=T2i=X2i i=1 Xi
Lösung über eine Doppelformulierung
Ein doppeltes Problem besteht darin, den Wert von und zu fragen, welche Werte der verbleibenden benötigt werden, um die Summe der Quadrate zu minimieren, , dass . Da angegeben ist, ist dies das Problem der Minimierung von , , .X21 Xj,j≠1 ∑nj=1X2j ∑nj=1Xj=0 X1 ∑nj=2X2j ∑nj=2Xj=−X1
Die Lösung ist in vielerlei Hinsicht leicht zu finden. Eines der elementarsten ist das Schreiben
für welche . Durch Erweitern der Zielfunktion und Verwenden dieser Summe-zu-Null-Identität zur Vereinfachung wird diese erzeugt∑nj=2εj=0
Das sofortige Anzeigen der eindeutigen Lösung ist für alle . Für diese Lösungεj=0 j
und
QED .
Lösung über Maschinen
Kehren Sie zu dem vereinfachten Programm zurück, mit dem wir begonnen haben:
vorbehaltlich
Die Methode der Lagrange-Multiplikatoren (die fast rein mechanisch und unkompliziert ist) setzt eine nichttriviale lineare Kombination der Gradienten dieser drei Funktionen mit Null gleich:
Komponente für Komponente sind diese Gleichungenn
Die letzten von ihnen implizieren entweder oder . (Wir können den letzteren Fall ausschließen, weil dann die erste Gleichung impliziert , wodurch die lineare Kombination trivialisiert wird.) Die Summe-zu-Null-Beschränkung erzeugt . Die Beschränkung der Quadratsumme liefert die beiden Lösungenn−1 X2=X3=⋯=Xn=−λ2/(2λ3) λ2=λ3=0 λ1=0 X1=−(n−1)X2
Sie geben beide nach
quelle
Die angegebene Ungleichung ist wahr. Es ist intuitiv ziemlich klar, dass wir den schwierigsten Fall für die Ungleichung erhalten (dh die linke Seite für gegebenes maximieren ), indem wir einen Wert wählen, sagen wir so groß wie möglich, während alle anderen gleich sind. Schauen wir uns ein Beispiel mit einer solchen Konfiguration an:S2 x1
BEARBEITEN
Wir werden nun die Behauptung beweisen, wie oben angedeutet. Erstens können wir für jeden gegebenen Vektor in diesem Problem ihn durch ersetzen, ohne eine der Seiten der obigen Ungleichung zu ändern. Nehmen wir im Folgenden an, dass . Wir können auch durch erneutes Etikettieren annehmen, dass am größten ist. wir dann zuerst und dann wählen, können wir durch einfache Algebra überprüfen, ob wir Gleichheit in der behaupteten Ungleichung haben. Es ist also scharf.x=(x1,x2,…,xn) x−x¯ x¯=0 x1 x1>0 x2=x3=⋯=xn=−x1n−1
Definieren Sie dann den (konvexen) Bereich durch für eine gegebene positive Konstante . Beachten Sie, dass der Schnittpunkt einer Hyperebene mit einer am Ursprung zentrierten Kugel ist, ebenso wie eine Kugel im -Raum. Unser Problem kann jetzt als formuliert werden da einR = { x ∈ R : ˉ x = 0 , ∑ ( x i - ˉ x ) 2 / ( n - 1 ) ≤ S 2 } S 2 R ( n - 1 ) max x ∈ R max i | x i | x R | x 1 |R
quelle