Jeffrey Wooldridge sagt in seiner ökonometrischen Analyse von Querschnitts- und Paneldaten (Seite 357), dass der empirische Hessische Wert "für die bestimmte Stichprobe, mit der wir arbeiten, nicht garantiert positiv oder sogar positiv semidefinit ist".
Dies erscheint mir falsch, da (abgesehen von numerischen Problemen) der Hessische Wert aufgrund der Definition des M-Schätzers als Wert des Parameters, der die Zielfunktion für die gegebene Stichprobe minimiert, und der bekannten Tatsache, dass der Hessische Wert positiv semidefinit sein muss bei einem (lokalen) Minimum ist der Hessische positiv semidefinit.
Ist mein Argument richtig?
[BEARBEITEN: Die Anweisung wurde in der 2. Ausgabe entfernt. aus dem Buch. Siehe Kommentar.]
HINTERGRUND Angenommen, θ N ein Schätzer durch Minimieren erhaltene 1
Bezeichnen wir den Hessischen von mit ,
Die asymptotische Kovarianz von θ beinhaltet E [ H ( q , & thgr; 0 ) ] wobei θ 0 der wahre Parameterwert. Eine Möglichkeit, dies abzuschätzen, ist die Verwendung des empirischen Hessischen
Es ist die Bestimmtheit der H , die in Frage steht.
quelle
Antworten:
Ich denke, du hast recht. Lassen Sie uns Ihre Argumentation auf den Punkt bringen:
minimiert die FunktionQdefiniert alsθˆN Q Q(θ)=1N∑Ni=1q(wi,θ).
Sei der Hessian von Q , woraus H ( θH Q H(θ)=∂2Q∂θi∂θj definitions und dies wiederum durch die Linearität der Differenzierung, der gleich .1N∑Ni=1H(wi,θn)
Unter der Annahme , θ N liegt im Innern der Domäne von Q , dann H ( θ N ) muß positiv semi-definit.θˆN Q H(θˆN)
Dies ist lediglich eine Aussage über die Funktion : Wie sie definiert ist, ist lediglich eine Ablenkung, mit der Ausnahme, dass die angenommene Differenzierbarkeit zweiter Ordnung von q in Bezug auf sein zweites Argument ( θ ) die Differenzierbarkeit zweiter Ordnung von Q sicherstellt .Q q θ Q
Das Finden von M-Schätzern kann schwierig sein. Betrachten Sie diese von @mpiktas bereitgestellten Daten:
Die R-Prozedur zum Finden des M-Schätzers mit thgr ; ) = ( y - c 1 x c 2 ) 4 ergab die Lösung ( c 1 , c 2 ) = ( - 114,91316 , - 32,54386 ) . Der Wert der Zielfunktion (der Durchschnitt der q ) zu diesem Zeitpunkt beträgt 62,3542. Hier ist eine Darstellung der Passform:q((x,y),θ)=(y−c1xc2)4 (c1,c2) (−114.91316,−32.54386) q
Hier ist eine Darstellung der (logarithmischen) Zielfunktion in einer Nachbarschaft dieser Anpassung:
Hier ist etwas faul: Die Parameter der Anpassung sind extrem weit von den Parametern entfernt, mit denen die Daten simuliert wurden (nahe ), und wir scheinen kein Minimum zu haben: Wir befinden uns in einem extrem flachen Tal, das abfällt zu größeren Werten beider Parameter:(0.3,0.2)
Die negative Determinante des Hessischen an dieser Stelle bestätigt, dass dies kein lokales Minimum ist! Wenn Sie sich jedoch die Beschriftungen der Z-Achse ansehen, können Sie feststellen, dass diese Funktion innerhalb des gesamten Bereichs flach bis fünfstellig ist, da sie einer Konstanten von 4,1329 (dem Logarithmus von 62,354) entspricht. Dies führte wahrscheinlich dazu, dass der R-Funktionsminimierer (mit seinen Standardtoleranzen) zu dem Schluss kam, dass er nahe am Minimum lag.
In der Tat ist die Lösung von diesem Punkt weit entfernt. Um dies sicher zu finden, habe ich in Mathematica die rechenintensive, aber hochwirksame Methode " Hauptachse " mit 50-stelliger Genauigkeit (Basis 10) verwendet, um mögliche numerische Probleme zu vermeiden. Sie findet ein Minimum in der Nähe von ( c 1 , c 2 ) = ( 0,02506 , 7,55973 ), wobei die Zielfunktion den Wert 58,292655 hat: ungefähr 6% kleiner als das von R gefundene "Minimum". Dieses Minimum tritt in einem extrem flach aussehenden Abschnitt auf , aber ich kann es (gerade noch) wie ein echtes Minimum mit elliptischen Konturen aussehen lassen, indem ich das c 2 übertreibe(c1,c2)=(0.02506,7.55973) c2 Richtung in der Handlung:
Die Konturen reichen von 58,29266 in der Mitte bis zu 58,29284 in den Ecken (!). Hier ist die 3D-Ansicht (wieder das Log-Objektiv):
Hier ist der Hessische positiv bestimmt: seine Eigenwerte sind 55062.02 und 0.430978. Somit dieser Punkt ein lokales Minimum (und wahrscheinlich ein globales Minimum). Hier ist die Passform, der es entspricht:
Ich denke es ist besser als das andere. Die Parameterwerte sind sicherlich realistischer und es ist klar, dass wir mit dieser Kurvenfamilie nicht viel besser umgehen können.
Aus diesem Beispiel können wir nützliche Lehren ziehen:
quelle
Weiter gibt Wooldridge in seinem Buch Beispiele für Schätzungen von Hessisch, die garantiert zahlenmäßig eindeutig positiv sind. In der Praxis sollte eine nicht positive Bestimmtheit von Hessisch anzeigen, dass sich die Lösung entweder am Grenzpunkt befindet oder der Algorithmus die Lösung nicht gefunden hat. Dies ist in der Regel ein weiterer Hinweis darauf, dass das angepasste Modell für bestimmte Daten möglicherweise nicht geeignet ist.
Hier ist das numerische Beispiel. Ich generiere ein nichtlineares Problem der kleinsten Quadrate:
set.seed(3)
Ich habe das Zielfunktionsquadrat der üblichen nichtlinearen Zielfunktion der kleinsten Quadrate gewählt:
Hier ist der Code in R zur Optimierung der Funktion, der Gradient und der Hessische.
Testen Sie zunächst, ob Gradient und Hessisch wie angegeben funktionieren.
Der Gradient ist Null, aber der Hessische ist nicht positiv.
Hinweis: Dies ist mein dritter Versuch, eine Antwort zu geben. Ich hoffe, ich habe es endlich geschafft, präzise mathematische Aussagen zu machen, die mir in den vorherigen Versionen entgangen sind.
quelle
Der Hessische ist an einer Sattelstelle unbestimmt. Es ist möglich, dass dies der einzige stationäre Punkt im Inneren des Parameterraums ist.
Update: Lassen Sie mich näher darauf eingehen. Nehmen wir zunächst an, dass der empirische Hessische überall existiert.
Wennθ^n ist ein lokales (oder sogar globales) Minimum von ∑ichq( wich, ⋅ ) und im Inneren des Parameterraumes (angenommen eine offene Menge) dann zwangsläufig das Hessische ( 1 / N) ∑ichH( wich, θ^n) ist positiv semidefinit. Wenn nicht, dannθ^n ist kein lokales Minimum. Dies folgt aus Optimalitätsbedingungen zweiter Ordnung - lokal∑ichq( wich, ⋅ ) darf in keiner Richtung abnehmen von θ^n .
Eine Quelle der Verwirrung könnte die "funktionierende" Definition eines M-Schätzers sein. Obwohl im Prinzip ein M-Schätzer definiert werden sollte alsargMindestθ∑ichq( wich, Θ ) kann es auch als Lösung der Gleichung definiert werden
In der Praxis würde sogar ein fast singulärer oder schlecht konditionierter positiver Hessischer Wert darauf hindeuten, dass der Schätzer arm ist und Sie sich mehr Sorgen machen müssen, als seine Varianz zu schätzen.
quelle
Es wurde viel um den heißen Brei in diesem Thread geredet, ob der hessische Wert auf ein lokales Minimum positiv (halb) definit sein muss. Also werde ich eine klare Aussage dazu machen.
Unter der Annahme, dass die objektive Funktion und alle Nebenbedingungsfunktionen zweimal kontinuierlich differenzierbar sind, muss das in den Nullraum des Jacobi projizierte Hessische des Lagrangischen mindestens positiv semidefinit sein. Dh wennZ ist also eine Basis für den Nullraum des Jacobi von aktiven Nebenbedingungen ZT∗ ( Hessisch-Lagrangisch ) ∗ Z muss positiv semidefinit sein. Dies muss für ein striktes lokales Minimum definitiv positiv sein.
Das Hessische der Zielfunktion in einem eingeschränkten Problem mit aktiven Einschränkungen muss also nicht positiv semidefinit sein, wenn es aktive Einschränkungen gibt.
Anmerkungen:
1) Aktive Bedingungen bestehen aus allen Gleichheitsbedingungen plus Ungleichheitsbedingungen, die mit Gleichheit zufrieden sind.
2) Siehe die Definition des Lagrange unter https://www.encyclopediaofmath.org/index.php/Karush-Kuhn-Tucker_conditions .
3) Wenn alle Bedingungen linear sind, dann ist das Hessische des Lagrange = Hessisches der Zielfunktion, da die 2. Ableitungen der linearen Funktionen Null sind. Aber Sie müssen immer noch den Projektionsjazz spielen, wenn eine dieser Einschränkungen aktiv ist. Beachten Sie, dass Unter- oder Obergrenzenbedingungen besondere Fälle von linearen Ungleichungsbedingungen sind. Wenn die einzigen Einschränkungen, die aktiv sind, gebundene Einschränkungen sind, läuft die Projektion des Hessischen in den Nullraum des Jacobischen von aktiven Einschränkungen darauf hinaus, die Zeilen und Spalten des Hessischen zu eliminieren, die diesen Komponenten an ihren Grenzen entsprechen.
4) Da Lagrange-Multiplikatoren inaktiver Nebenbedingungen Null sind, ist, wenn keine aktiven Nebenbedingungen vorhanden sind, das Hessische des Lagrange = das Hessische der Zielfunktion, und die Identitätsmatrix ist eine Basis für den Nullraum des Jacobischen der aktiven Nebenbedingungen, die Dies führt zu einer Vereinfachung des Kriteriums unter der bekannten Bedingung, dass das Hessische der Zielfunktion auf lokaler Ebene semidefinit positiv ist (auf lokaler Ebene positiv definit, wenn es sich um ein striktes lokales Minimum handelt).
quelle
Die obigen positiven Antworten sind richtig, lassen jedoch die entscheidende Annahme der Identifizierung außer Acht - wenn Ihr Modell nicht identifiziert wird (oder wenn es nur als identifiziert eingestuft wird), könnten Sie tatsächlich, wie Wooldridge richtig angegeben hat, mit einem empirischen Hessischen Nicht-PSD-Modell konfrontiert sein. Führen Sie einfach ein nicht-spielzeugpsychometrisches / ökonometrisches Modell aus und überzeugen Sie sich selbst.
quelle