Analoga der komprimierten Abtastung

22

Bei der komprimierten Abtastung besteht das Ziel darin, lineare Kompressionsschemata für große Eingangssignale zu finden, von denen bekannt ist, dass sie eine spärliche Darstellung haben, so dass das Eingangssignal effizient aus der Komprimierung wiederhergestellt werden kann (die "Skizze"). Formaler ist die Standardeinstellung, dass es einen Signalvektor für den , und die komprimierte Darstellung gleich Ax ist, wobei A ein R- by- n- Real ist Matrix, in der wir R \ ll n wollen . Die Magie des komprimierten Erfassens ist, dass man A explizit so konstruieren kann, dass es eine schnelle (nahezu lineare) exakte Wiederherstellung von jedem k ermöglichtxRnx0<kAxARnRnAk-sparsame x mit R so klein wie O(kno(1)) . Ich habe vielleicht nicht die bekanntesten Parameter, aber das ist die allgemeine Idee.

Meine Frage ist: Gibt es ähnliche Phänomene in anderen Settings? Was ich damit meine, ist, dass das Eingangssignal aus einer "Familie mit geringer Komplexität" gemäß einem Maß für die Komplexität stammen könnte, das nicht unbedingt sparsam ist. Wir wollen dann Komprimierungs- und Dekomprimierungsalgorithmen, nicht unbedingt lineare Karten, die effizient und korrekt sind. Sind solche Ergebnisse in einem anderen Kontext bekannt? Was halten Sie von einer "allgemeineren" Theorie der komprimierten Wahrnehmung?

(Natürlich sind Linearität und Sparsamkeit bei Anwendungen der komprimierten Abtastung wichtige Themen. Die Frage, die ich hier stelle, ist eher "philosophisch".)

Arnab
quelle

Antworten:

21

Ihre Frage befasst sich mit dem "genauen" Wiederherstellungsproblem (wir möchten ein k-sparse genau mit wiederherstellen ). Im Folgenden werde ich mich jedoch auf die "robuste" Version konzentrieren, bei der ein beliebiger Vektor ist und das Ziel des Wiederherstellungsalgorithmus darin besteht, eine sparsame Näherung an (diese Unterscheidung ist tatsächlich für einige der folgenden Diskussionen von Bedeutung) ). Formal möchten Sie folgendes Problem (nennen Sie es ):xAxxkxxP1

Design so, dass für jedes where wiederhergestellt werden kannAxxxxL

minx"Cxx"R , wobei über alle sparsamen Vektoren reicht.x"k

Hier und bezeichnen die linke und die rechte Norm, und ist der "Approximationsfaktor". Es gibt verschiedene Möglichkeiten für und . Der kann man , dass beide gleich oder ; es kann jedoch unordentlicher werden.LRCLR21

Nun zu einigen Analoga und Verallgemeinerungen.

Beliebige Basis. Zunächst ist zu beachten, dass jedes Schema, das die obige Definition erfüllt, verwendet werden kann, um ein allgemeineres Problem zu lösen, bei dem das wiederhergestellte Signal auf einer willkürlichen Basis (z. B. Wavelet of Fourier) und nicht nur auf der Standardbasis dünn ist. Sei die Basismatrix. Formal wird ein Vektor ist -sparse in Basis , wenn wobei ist -sparse. Nun können wir das verallgemeinerte Problem betrachten (nennen wir es ):xBukBu=BvvkPB

Konstruiere so, dass mit wo wiederhergestellt werden kannABABxxxxL

minx"Cxx"R , wobei über alle Vektoren reicht, die in sparsam sind .x"kB

Man kann dieses Problem auf das frühere Problem reduzieren, indem man die Basis ändert, dh eine . Wenn wir eine Lösung für in der Norm haben (dh die linke und die rechte Norm sind gleich ), erhalten wir auch eine Lösung für in der Norm. Wenn andere Normen verwendet, lösen wir in diesen Normen, die durch Ändern der Basis modifiziert wurden.P1AB=AB1P122PB2P1PB

Eine Einschränkung im obigen ist, dass wir im obigen Ansatz die Matrix müssen, um zu definieren . Vielleicht ist es überraschend, wenn wir die Randomisierung zulassen ( ist nicht festgelegt, sondern wird zufällig ausgewählt), dass aus einer festen Verteilung ausgewählt werden kann, die von unabhängig ist . Dies ist die sogenannte Universalitätseigenschaft .BABABABB

Wörterbücher. Die nächste Verallgemeinerung kann erhalten werden, indem die Anforderung, dass eine Basis ist , wird. Stattdessen können wir zulassen, dass mehr Zeilen als Spalten enthält. Solche Matrizen werden als (übervollständige) Wörterbücher bezeichnet. Ein beliebtes Beispiel ist die Identitätsmatrix über der Fourier-Matrix. Ein weiteres Beispiel ist eine Matrix, in der die Zeilen die charakteristischen Vektoren aller Intervalle in {1 ... n} sind. in diesem Fall enthält die Menge { } alle " Histogramme", dh stückweise konstante Funktionen über {1 ... n} mit höchstens Stücken.BBBu:u is k-sparsekk

Soweit ich weiß, gibt es keine allgemeine Theorie für solche willkürlichen Wörterbücher, obwohl zu diesem Thema eine Menge Arbeit geleistet wurde. Siehe z. B. Candes-Eldar-Needell'10 oder Donoho-Elad-Temlyakov, IEEE Transactions on Information Theory, 2004 .

Das Skizzieren von Histogrammen wurde ausführlich in Streaming- und Datenbankliteratur untersucht, z. B. Gilbert-Guha-Indyk-Kotidis-Muthukrishnan-Strauss, STOC 2002 oder Thaper-Guha-Indyk-Koudas, SIGMOD 2002 .

Modelle. (auch von Arnab erwähnt). Eine andere Verallgemeinerung besteht darin, Einschränkungen für die Sparsity-Muster einzuführen. Sei eine Teilmenge von Teilmengen von {1 ... n}. Wir sagen , dass ist -sparse wenn der Träger von in einem Element enthalten ist . Wir können jetzt das Problem (nennen es ):MkuMuMPM

Design so, dass für jedes where wiederhergestellt werden kannAxxxxL

minx"Cxx"R , wobei über alle sparsamen Vektoren reicht.x"M

Beispielsweise könnten die Elemente von die Form , wobei jedes einem "Unterblock" von {1 ... n} mit einer gewissen Länge , dh ist von die Form {jb + 1 ... (j + 1) b} für einige . Dies ist das sogenannte "Block-Sparsity" -Modell. MI1IkIibIij

Der Vorteil von Modellen ist, dass man im Vergleich zum generischen Sparsity-Ansatz die Anzahl der Messungen einsparen kann. Dies liegt daran, dass der Raum von sparsamen Signalen kleiner ist als der Raum aller sparsamen Signale, so dass die Matrix weniger Information bewahren muss. Weitere Informationen finden Sie unter Baraniuk-Cevher-Duarte-Hegde, IEEE-Transaktionen zur Informationstheorie, 2010 oder Eldar-Mishali, IEEE-Transaktionen zur Informationstheorie, 2009 .kMkA

Hoffe das hilft.

Piotr
quelle
11

Es gibt eine Verallgemeinerung der komprimierten Abtastung auf die nicht kommutative Einstellung, die als Matrixvervollständigung bezeichnet wird . In der genauen Einstellung erhalten Sie eine unbekannte Matrix , von der anstelle der Sparsamkeit bekannt ist, dass sie einen niedrigen Rang . Ihr Ziel ist es, die Singularwerte und Singularvektoren dieser Matrix zu rekonstruieren, indem Sie nur die -Koeffizienten der Matrix abtasten und nicht wie im schlimmsten Fall . m×nMrm,nrO~(rm+rn)O(mn)

Wenn die singulären Vektoren mit der Basis, auf der Sie Matrixelemente abtasten, ausreichend "inkohärent" (ungefähr, nicht zu gut ausgerichtet) sind, können Sie mit hoher Wahrscheinlichkeit erfolgreich sein, indem Sie ein konvexes Programm lösen, das der standardmäßigen komprimierten Abtastung ähnelt. In diesem Fall müssen Sie die Schatten 1-Norm, dh die Summe der Singularwerte, minimieren.

Dieses Problem hat auch viele Anwendungen, zum Beispiel um einem Kunden eines Online-Buchladens Buchempfehlungen zu geben, weil er nur die wenigen Bewertungen kennt, die andere Kunden generiert haben. In diesem Zusammenhang sind die Zeilen und Spalten von durch die Bücher bzw. die Kunden gekennzeichnet. Die wenigen sichtbaren Matrixelemente sind die Kundenbewertungen der Bücher, die sie zuvor gekauft haben. Es wird erwartet, dass die Matrix einen niedrigen Rang hat, da wir glauben, dass typischerweise nur wenige Primärfaktoren unsere Präferenzen beeinflussen. Durch das Ausfüllen von kann der Anbieter genaue Vorhersagen darüber treffen, welche Bücher Sie wahrscheinlich möchten.MMM

Ein guter Anfang ist dieser Artikel von Candés und Recht, Exakte Matrix-Vervollständigung durch konvexe Optimierung . Es gibt auch eine wirklich coole Verallgemeinerung, bei der Sie den Matrixraum auf einer beliebigen Basis abtasten können. In diesem Artikel von David Gross, Wiederherstellen von Matrizen mit niedrigem Rang von wenigen Koeffizienten auf jeder Basis, wird diese Verallgemeinerung verwendet, um die Beweise der Matrixvervollständigung wesentlich zu vereinfachen, und für einige Basen können Sie auch die Inkohärenzannahme entfernen. Dieses Papier enthält auch die besten Schranken hinsichtlich der Komplexität der Stichprobenentnahme. Es mag seltsam klingen, auf einer willkürlichen Basis zu sampeln, aber in der Einstellung der Quantenmechanik ist es eigentlich ganz natürlich, siehe zum Beispiel diese Abhandlung, Quantenzustands- Tomographie mittels komprimierter Abtastung .

Steve Flammia
quelle
9

Es gibt eine vielfachbasierte komprimierte Erfassung, bei der die Sparsity-Bedingung durch die Bedingung ersetzt wird, dass die Daten auf einer niedrigdimensionalen Untervielfalt des natürlichen Signalraums liegen. Man beachte, dass Sparsamkeit so formuliert werden kann, dass sie auf einer bestimmten Mannigfaltigkeit (in der Tat einer Sekantenart) liegt.

Siehe zum Beispiel dieses Papier und die Referenzen in seiner Einführung. (Ich weiß zugegebenermaßen nicht, ob dieses Papier für die Region repräsentativ ist - ich kenne mich besser mit dem verwandten Thema der Klassifikatoren nach Niyogi-Smale-Weinberger aus .)

Joshua Grochow
quelle
interessantes Papier. Ich war mir dieser Arbeit nicht bewusst.
Suresh Venkat
Übrigens, wie Candes in seinem SODA 10-Vortrag betonte, ist Sparsamkeit nicht dasselbe wie niedrigdimensional. es ist ganz einfach, eins ohne das andere zu haben
Suresh Venkat
Vielen Dank! Eine interessante Arbeit, die in dem verlinkten Artikel zitiert wird, ist "Model-based compressive sensing". Ich denke, es zeigt sich, dass die Anzahl der Messungen noch stärker reduziert werden kann als bei regulären CS, wenn versprochen wird, dass das Eingangssignal von einer kleinen Menge von K-dimensionalen Teilräumen stammt.
Arnab
8

Ich nehme an, dass auf der Ebene der Allgemeinheit, auf der ich die Frage gestellt habe, die Arbeit "Compression of samplable sources" von Trevisan, Vadhan und Zuckerman (2004) ebenfalls eine mögliche Antwort darstellt. Sie zeigen, dass in vielen Fällen, wenn die Quelle von Eingabezeichenfolgen von geringer Komplexität ist (z. B. von Logspace-Maschinen abgetastet werden kann), eine additive Konstante in Polynomzeit komprimiert und dekomprimiert werden kann, um sie von der Entropie der Quelle zu entfernen.

Ich weiß jedoch nicht genau, ob die komprimierte Abtastung in eine größere Theorie der Komprimierung eingeordnet werden kann.

Arnab
quelle
3

Ein Analogon der Kompressionsmessung ist das maschinelle Lernen, wenn Sie versuchen, einen hochdimensionalen Gewichtungsvektor (z. B. bei der Klassifizierung / Regression) aus einer sehr kleinen Stichprobengröße zu schätzen. Um mit unterbestimmten linearen Gleichungssystemen in solchen Situationen fertig zu werden, erzwingt man typischerweise eine Sparsity (über 10 oder 11 Strafen) für den zu lernenden Gewichtsvektor. Berücksichtigen Sie das folgende Klassifizierungs- / Regressionsproblem beim maschinellen Lernen, um die Verbindung zu erkennen:

Stellen Sie die N Beispiele für D Dimensionen (D >> N) als eine NxD-Matrix X dar. Stellen Sie die N Antworten (eine für jedes Beispiel) als einen Nx1-Vektor Y dar. Das Ziel besteht darin, nach einem Dx1-Vektor-Theta über die folgende Gleichung zu lösen : Y = X * Theta

Hier ist die Analogie zu diesem Problem beim Compressive Sensing (CS): Sie möchten Theta schätzen / messen, das ein D-dimensionaler Vektor ist (ähnlich einem unbekannten "Signal" in CS). Um dies abzuschätzen, verwenden Sie eine Matrix X (ähnlich der Entwurfsmatrix in CS) und N 1-D-Messungen Y (ähnlich dem komprimierten Signal in CS, da D >> N).

spinxl39
quelle