Ich kenne die Definition der symmetrischen positiv definierten (SPD) Matrix, möchte aber mehr verstehen.
Warum sind sie intuitiv so wichtig?
Hier ist was ich weiß. Was sonst?
Für gegebene Daten ist die Kovarianzmatrix SPD. Die Kovarianzmatrix ist eine wichtige Metrik. Eine intuitive Erklärung finden Sie in diesem hervorragenden Beitrag .
Die quadratische Form ist konvex, wenn SPD ist. Konvexität ist eine nette Eigenschaft für eine Funktion, die sicherstellen kann, dass die lokale Lösung eine globale Lösung ist. Bei konvexen Problemen gibt es viele gute Algorithmen zu lösen, nicht jedoch bei nicht-kovexen Problemen.A
Wenn SPD ist, sind die Optimierungslösung für die quadratische Form und die Lösung für das lineare System gleich. Wir können also Konvertierungen zwischen zwei klassischen Problemen durchführen. Dies ist wichtig, da es uns ermöglicht, Tricks, die in einer Domäne entdeckt wurden, in einer anderen zu verwenden. Zum Beispiel können wir die konjugierte Gradientenmethode verwenden, um ein lineares System zu lösen.minimieren 1Ax=b
Es gibt viele gute Algorithmen (schnell, numerisch stabil), die für eine SPD-Matrix besser funktionieren, z. B. die Cholesky-Zerlegung.
EDIT: Ich versuche nicht, die Identitäten nach der SPD-Matrix zu fragen, sondern die Intuition hinter der Eigenschaft, um die Wichtigkeit zu zeigen. Zum Beispiel, wie von @Matthew Drury erwähnt, wenn eine Matrix SPD ist, sind Eigenwerte alle positiven reellen Zahlen, aber warum alle positiven Angelegenheiten. @ Matthew Drury hatte eine großartige Antwort auf Flow und das ist, wonach ich gesucht habe.
Antworten:
Eine (reelle) symmetrische Matrix hat einen vollständigen Satz von orthogonalen Eigenvektoren, für die die entsprechenden Eigenwerte alle reelle Zahlen sind. Bei unsymmetrischen Matrizen kann dies fehlschlagen. Beispielsweise hat eine Drehung im zweidimensionalen Raum keinen Eigenvektor oder Eigenwerte in den reellen Zahlen. Sie müssen zu einem Vektorraum über die komplexen Zahlen gehen, um sie zu finden.
Wenn die Matrix zusätzlich positiv definit ist, dann sind diese Eigenwerte alle positive reelle Zahlen. Diese Tatsache ist viel einfacher als die erste, denn wenn ein Eigenvektor mit Einheitslänge und λ der entsprechende Eigenwert ist, dannv λ
wo die letzte Gleichheit die Definition der positiven Bestimmtheit verwendet.
Für die Intuition ist es wichtig, dass die Eigenvektoren und Eigenwerte einer linearen Transformation das Koordinatensystem beschreiben, in dem die Transformation am einfachsten zu verstehen ist. Eine lineare Transformation kann auf einer "natürlichen" Basis wie dem Standardkoordinatensystem sehr schwer zu verstehen sein, jedoch wird jede mit einer "bevorzugten" Basis von Eigenvektoren geliefert, bei denen die Transformation als Skalierung in alle Richtungen wirkt. Dies erleichtert das Verständnis der Geometrie der Transformation.
Beispielsweise wird der Test der zweiten Ableitung für die lokalen Extrema einer Funktion häufig als eine Reihe mysteriöser Bedingungen angegeben, die einen Eintrag in die Matrix der zweiten Ableitung und einige Determinanten beinhalten. Tatsächlich kodieren diese Bedingungen einfach die folgende geometrische Beobachtung:R2→R
Sie können dies mit der obigen geometrischen Argumentation auf einer eigenen Basis verstehen. Die erste Ableitung an einem kritischen Punkt verschwindet, so dass die Änderungsraten der Funktion hier von der zweiten Ableitung gesteuert werden. Jetzt können wir geometrisch argumentieren
Da die Eigenvektoren den gesamten Raum überspannen, ist jede andere Richtung eine Linearkombination von Eigenrichtungen, so dass die Änderungsraten in diesen Richtungen Linearkombinationen der Änderungsraten in den Eigenrichtungen sind. Tatsächlich gilt dies in alle Richtungen (dies bedeutet mehr oder weniger, dass eine Funktion, die in einem höherdimensionalen Raum definiert ist, differenzierbar ist). Wenn Sie nun ein kleines Bild in Ihrem Kopf zeichnen, ergibt dies viel Sinn für etwas, das in Anfängerkalkültexten ziemlich mysteriös ist.
Dies gilt direkt für einen Ihrer Aufzählungspunkte
Die Matrix der zweiten Ableitungen ist überall , was symmetrisch positiv definit ist. Geometrisch bedeutet dies, dass sich die Funktion selbst über ihrer Tangentialebene verbiegt , wenn wir uns in eine beliebige Eigenrichtung (und damit in eine beliebige Richtung, da jede andere eine lineare Kombination von Eigenrichtungen ist) bewegen . Dies bedeutet, dass die gesamte Oberfläche konvex ist.A
quelle
Sie werden eine gewisse Intuition in den vielen elementaren Möglichkeiten finden, die Eigenwerte einer reellen symmetrischen Matrix so darzustellen, dass sie alle reell sind: /mathpro/118626/real-symmetric-matrix-has-real-eigenvalues-elementary- proof / 118640 # 118640
Insbesondere die quadratische Form kommt im Rayleigh-Quotienten auf natürliche Weise vor, und symmetrische Matrizen bieten die wohl natürlichste Möglichkeit, eine große Familie von Matrizen mit reellen Eigenwerten darzustellen. Siehe den Courant-Minimax-Satz zum Beispiel: https://en.wikipedia.org/wiki/Courant_minimax_principlexTA x
Diese letztgenannte Eigenschaft ist im Bereich der Support-Vektor-Maschinen, insbesondere der Kernel-Methoden und des Kernel-Tricks , bei denen der Kernel symmetrisch positiv sein muss, um das richtige innere Produkt zu induzieren, von entscheidender Bedeutung. In der Tat verallgemeinert der Satz von Mercer die intuitiven Eigenschaften symmetrischer Matrizen auf funktionale Räume.
quelle
Bei Verwendung der Newton-Methode werden hessische Nicht-SPD-Matrizen typischerweise als SPD "angestupst". Es gibt einen netten Algorithmus namens modifiziertes Cholesky, der ein Nicht-SPD-Hessisch erkennt, es in die richtige Richtung "stupst" und das Ergebnis faktorisiert, und das alles zu (im Wesentlichen) den gleichen Kosten wie bei einer Cholesky-Faktorisierung. Quasi-Newton-Methoden vermeiden dieses Problem, indem sie den ungefähren Hessischen Wert auf SPD setzen.
Nebenbei bemerkt, erhalten symmetrische undefinierte Systeme heutzutage viel Aufmerksamkeit. Sie tauchen im Kontext von Innenpunktmethoden zur eingeschränkten Optimierung auf.
quelle
Geometrisch definiert eine positiv definierte Matrix eine Metrik , beispielsweise eine Riemannsche Metrik, sodass wir sofort geometrische Konzepte verwenden können.
quelle
Es gibt bereits mehrere Antworten, die erklären, warum symmetrische positiv definierte Matrizen so wichtig sind. Deshalb werde ich eine Antwort geben, die erklärt, warum sie nicht so wichtig sind, wie manche Leute, einschließlich der Autoren einiger dieser Antworten, denken. Der Einfachheit halber beschränke ich mich auf symmetrische Matrizen und konzentriere mich auf Hessisch und Optimierung.
Wenn Gott die Welt konvex gemacht hätte, gäbe es keine konvexe Optimierung, sondern nur eine Optimierung. Ebenso gäbe es keine (symmetrischen) positiven bestimmten Matrizen, sondern nur (symmetrische) Matrizen. Aber das ist nicht der Fall, also kümmere dich darum.
Wenn ein quadratisches Programmierproblem konvex ist, kann es "leicht" gelöst werden. Wenn es nicht konvex ist, kann ein globales Optimum immer noch unter Verwendung von Verzweigungs- und gebundenen Methoden gefunden werden (aber es kann länger und mehr Speicher dauern).
Wenn eine Newton-Methode für die Optimierung verwendet wird und der Hessische Wert bei einigen Iterationen unbestimmt ist, ist es nicht erforderlich, ihn auf eine positive Bestimmtheit zu "finageln". Wenn eine Zeilensuche verwendet wird, können Richtungen negativer Krümmung gefunden und die Zeilensuche entlang dieser ausgeführt werden, und wenn ein Vertrauensbereich verwendet wird, gibt es einen ausreichend kleinen Vertrauensbereich, so dass die Lösung des Vertrauensbereichsproblems einen Abstieg erreicht.
Wie bei Quasi-Newton-Methoden behalten BFGS (gedämpft, wenn das Problem eingeschränkt ist) und DFP die positive Bestimmtheit der hessischen oder inversen hessischen Approximation bei. Andere Quasi-Newton-Methoden wie SR1 (Symmetric Rank One) weisen nicht unbedingt eine positive Bestimmtheit auf. Bevor Sie diesbezüglich außer Form geraten, ist dies ein guter Grund, sich für SR1 für viele Probleme zu entscheiden - wenn das Hessische auf dem Weg zum Optimum wirklich nicht positiv bestimmt ist, muss die Quasi-Newton-Näherung positiv bestimmt sein kann zu einer miesen quadratischen Annäherung an die Zielfunktion führen. Im Gegensatz dazu ist die SR1-Aktualisierungsmethode "locker wie eine Gans" und kann ihre Bestimmtheit im weiteren Verlauf verändern.
Bei nichtlinear eingeschränkten Optimierungsproblemen kommt es nicht auf das Hessische der Zielfunktion an, sondern auf das Hessische des Lagrange. Das Hessische des Lagrangischen mag auch im Optimum unbestimmt sein, und tatsächlich ist es nur die Projektion des Hessischen des Lagrangischen in den Nullraum des Jacobischen der aktiven (linearen und nichtlinearen) Bedingungen, die positiv sein müssen -definit am Optimum. Wenn Sie das Hessische des Lagrangischen über BFGS modellieren und es dadurch auf einen positiven Bestimmungswert beschränken, ist es möglicherweise überall schrecklich und funktioniert nicht gut. Im Gegensatz dazu kann SR1 seine Eigenwerte an das anpassen, was es tatsächlich "sieht".
Zu all dem kann ich noch viel mehr sagen, aber das ist genug, um Ihnen einen Vorgeschmack zu geben.
Edit : Was ich 2 Absätze geschrieben habe, ist richtig. Ich habe jedoch vergessen darauf hinzuweisen, dass dies auch für linear beschränkte Probleme gilt. Bei linear beschränkten Problemen ist das Hessische des Lagrangischen genau das Hessische der objektiven Funktion. Die Optimalitätsbedingung 2. Ordnung für ein lokales Minimum ist also, dass die Projektion des Hessischen der objektiven Funktion in den Nullraum des Jacobischen der aktiven Nebenbedingungen positiv semidefinit ist. Insbesondere muss das Hessische der Zielfunktion nicht (notwendigerweise) das Optimum sein und ist es auch bei linear beschränkten Problemen oft nicht.
quelle
Sie haben bereits eine Reihe von Gründen genannt, warum SPD wichtig ist, aber Sie haben die Frage trotzdem gestellt. Daher scheint es mir, dass Sie diese Frage zuerst beantworten müssen: Warum sind positive Mengen wichtig?
Meine Antwort ist, dass einige Mengen positiv sein sollten, um mit unseren Erfahrungen oder Modellen in Einklang zu kommen. Zum Beispiel müssen die Abstände zwischen Gegenständen im Raum positiv sein. Die Koordinaten können negativ sein, aber die Abstände sind immer nicht negativ. Wenn Sie also einen Datensatz und einen Algorithmus haben, der ihn verarbeitet, können Sie einen finden, der beim Einspeisen eines negativen Abstands zusammenbricht. Sie sagen also, "mein Algorithmus erfordert zu jeder Zeit positive Abstandseingaben" und es würde sich nicht nach einer unzumutbaren Forderung anhören.
Varianz-Kovarianz-Matrizen sind also in dieser Analogie positiv semidefinit, dh "nicht negativ". Das Beispiel eines Algorithmus, der diese Bedingung erfordert, ist die Cholesky-Zerlegung. Sie ist sehr praktisch. Es wird oft als "Quadratwurzel der Matrix" bezeichnet. So wie die Quadratwurzel einer reellen Zahl, die Nicht-Negativität erfordert, möchte Cholesky nicht-negative Matrizen. Wir finden das nicht einschränkend, wenn es um Kovarianzmatrizen geht, weil sie es immer sind.
Das ist meine utilitaristische Antwort. Mithilfe von Einschränkungen wie Nicht-Negativität oder SPD können wir effizientere Berechnungsalgorithmen oder praktische Modellierungswerkzeuge erstellen, die verfügbar sind, wenn Ihre Eingaben diese Einschränkungen erfüllen.
quelle
Hier sind zwei weitere Gründe, die nicht erwähnt wurden, warum positiv-semidefinite Matrizen wichtig sind:
Die graphische Laplace-Matrix ist diagonal dominant und damit PSD.
Positive Semidefinitität definiert eine Teilordnung auf der Menge der symmetrischen Matrizen (dies ist die Grundlage der semidefiniten Programmierung).
quelle