Unfruchtbare Hochebenen in Trainingslandschaften für quantenneurale Netze

9

Hier argumentieren die Autoren, dass die Bemühungen, ein skalierbares quantenneurales Netzwerk unter Verwendung eines Satzes parametrisierter Gatter zu erstellen, für eine große Anzahl von Qubits als gescheitert gelten. Dies liegt an der Tatsache, dass aufgrund des Levy-Lemmas der Gradient einer Funktion in hochdimensionalen Räumen überall fast Null ist.

Ich habe mich gefragt, ob dieses Argument auch auf andere quantenklassische Hybridoptimierungsmethoden wie VQE (Variational Quantum Eigensolver) oder QAOA (Quantum Approximate Optimization Algorithm) angewendet werden kann .

Was denkst du?

asdf
quelle
"Verwenden einer Reihe parametrisierter Tore" Welche Menge? Ist es zufällig?
rrtucci
Der Artikel wurde von Jarrod McClean geschrieben, der auch der Pionier von VQE ist. Ich kann mir vorstellen, dass Jarrod nicht glaubt, dass VQE für eine größere Anzahl von Qubits fehlschlägt. Ich denke, Ihre Beschreibung von Levys Lemma unterscheidet sich ein wenig von dem, was das Papier vorschlägt. Sie sagen, "der Gradient einer Funktion in hochdimensionalen Räumen ist überall fast Null", aber das Papier sagt nur, dass dies im speziellen Kontext der in dem Papier beschriebenen QNNs der Fall ist .
user1271772
Um meinen letzten Kommentar etwas näher zu erläutern: Man kann einfach eine hochdimensionale Funktion konstruieren, die sich überall sehr schnell ändert, sie wird nicht überall einen Gradienten von "fast Null" haben. Die Schlussfolgerung, die auf Levys Lemma in der Arbeit basiert, bezieht sich auf die spezifische Funktion, die sie optimieren, und nicht auf "irgendeine" Funktion in einem hochdimensionalen Raum.
user1271772
1
@asdf: Nachdem ich den größten Teil des Tages damit verbracht habe, in der Zeitung hin und her zu schauen, habe ich endlich eine Antwort für dich gefunden. Schau mal.
user1271772

Antworten:

4

Erstens : Das Papier bezieht sich auf [ 37 ] für Levys Lemma, aber Sie werden in [37] keine Erwähnung von "Levys Lemma" finden. Sie werden feststellen, dass es "Levys Ungleichung" heißt, was in diesem Artikel , der in dem von Ihnen erwähnten Artikel nicht zitiert wird, Levys Lemma genannt wird .

Zweitens : Es gibt einen einfachen Beweis dafür, dass diese Behauptung für VQE falsch ist. In der Quantenchemie optimieren wir die Parameter eines Wellenfunktionsansatzes , um die niedrigste (dh genaueste) Energie zu erhalten. Die Energie wird bewertet durch:|Ψ(p)

Ep=Ψ(p)|H|Ψ(p)Ψ(p)|Ψ(p).

VQE bedeutet nur, dass wir einen Quantencomputer verwenden, um diese Energie auszuwerten, und einen klassischen Computer, um zu entscheiden, wie die Parameter in verbessert werden sollen, damit die Energie in der nächsten Quanteniteration niedriger wird.p

Ob der "Gradient also fast überall 0 sein wird, wenn die Anzahl der Parameter in groß ist", hängt überhaupt nicht davon ab, ob wir VQE (auf einem Quantencomputer) verwenden oder nur einen Standard ausführen Quantenchemieprogramm (wie Gauß ) auf einem klassischen Computer. Quantenchemiker optimieren normalerweise die obige Energie variabel mit bis zu Parametern in , und der einzige Grund, warum wir nicht darüber hinausgehen, ist, dass uns der Arbeitsspeicher ausgeht und nicht, dass die Energielandschaft beginnt flach werden. In diesem Artikel sehen Sie am Ende der Zusammenfassung, dass sie die Energie für eine Wellenfunktion mit etwa Parametern berechnet habenp1010p1012, wobei die Parameter Koeffizienten von Slater-Determinanten sind. Es ist allgemein bekannt, dass die Energielandschaft nicht so flach ist (wie es wäre, wenn der Gradient fast überall 0 wäre), selbst wenn es eine Billion Parameter oder sogar mehr gibt.

Schlussfolgerung : Die Anwendung von Levys Lemma hängt von der jeweiligen Energielandschaft ab, die sowohl von als auch von Ihrem Ansatz abhängt . Im Falle ihrer besonderen Implementierung von QNNs haben sie eine Anwendung von Levys Lemma als angemessen befunden. Im Fall von VQE haben wir ein Gegenbeispiel zu der Behauptung, dass Levys Lemma "immer" gilt. Das Gegenbeispiel, bei dem Levys Lemma nicht gilt, ist, wenn ein molekularer Hamilton-Operator und eine CI- Wellenfunktion ist. H|Ψ(p)H|Ψ

user1271772
quelle