Ihre Frage befasst sich mit dem "genauen" Wiederherstellungsproblem (wir möchten ein k-sparse genau mit wiederherstellen ). Im Folgenden werde ich mich jedoch auf die "robuste" Version konzentrieren, bei der ein beliebiger Vektor ist und das Ziel des Wiederherstellungsalgorithmus darin besteht, eine sparsame Näherung an (diese Unterscheidung ist tatsächlich für einige der folgenden Diskussionen von Bedeutung) ). Formal möchten Sie folgendes Problem (nennen Sie es ):xAxxkx′xP1
Design so, dass für jedes where
wiederhergestellt werden kannAxx′∥x−x′∥L≤
minx"C∥x−x"∥R , wobei über alle sparsamen Vektoren reicht.x"k
Hier und bezeichnen die linke und die rechte Norm, und ist der "Approximationsfaktor". Es gibt verschiedene Möglichkeiten für und . Der kann man , dass beide gleich oder ; es kann jedoch unordentlicher werden.∥⋅∥L∥⋅∥RC∥⋅∥L∥⋅∥Rℓ2ℓ1
Nun zu einigen Analoga und Verallgemeinerungen.
Beliebige Basis. Zunächst ist zu beachten, dass jedes Schema, das die obige Definition erfüllt, verwendet werden kann, um ein allgemeineres Problem zu lösen, bei dem das wiederhergestellte Signal auf einer willkürlichen Basis (z. B. Wavelet of Fourier) und nicht nur auf der Standardbasis dünn ist. Sei die Basismatrix. Formal wird ein Vektor ist -sparse in Basis , wenn wobei ist -sparse. Nun können wir das verallgemeinerte Problem betrachten (nennen wir es ):x′BukBu=BvvkPB
Konstruiere so, dass mit wo wiederhergestellt werden kannABABxx′∥x−x′∥L≤
minx"C∥x−x"∥R , wobei über alle Vektoren reicht, die in sparsam sind .x"kB
Man kann dieses Problem auf das frühere Problem reduzieren, indem man die Basis ändert, dh eine . Wenn wir eine Lösung für in der Norm haben (dh die linke und die rechte Norm sind gleich ), erhalten wir auch eine Lösung für in der Norm. Wenn andere Normen verwendet, lösen wir in diesen Normen, die durch Ändern der Basis modifiziert wurden.P1AB=AB−1P1ℓ2ℓ2PBℓ2P1PB
Eine Einschränkung im obigen ist, dass wir im obigen Ansatz die Matrix müssen, um zu definieren . Vielleicht ist es überraschend, wenn wir die Randomisierung zulassen ( ist nicht festgelegt, sondern wird zufällig ausgewählt), dass aus einer festen Verteilung ausgewählt werden kann, die von unabhängig ist . Dies ist die sogenannte Universalitätseigenschaft .BABABABB
Wörterbücher. Die nächste Verallgemeinerung kann erhalten werden, indem die Anforderung, dass eine Basis ist , wird. Stattdessen können wir zulassen, dass mehr Zeilen als Spalten enthält. Solche Matrizen werden als (übervollständige) Wörterbücher bezeichnet. Ein beliebtes Beispiel ist die Identitätsmatrix über der Fourier-Matrix. Ein weiteres Beispiel ist eine Matrix, in der die Zeilen die charakteristischen Vektoren aller Intervalle in {1 ... n} sind. in diesem Fall enthält die Menge { } alle " Histogramme", dh stückweise konstante Funktionen über {1 ... n} mit höchstens Stücken.BBBu:u is k-sparsekk
Soweit ich weiß, gibt es keine allgemeine Theorie für solche willkürlichen Wörterbücher, obwohl zu diesem Thema eine Menge Arbeit geleistet wurde. Siehe z. B.
Candes-Eldar-Needell'10 oder
Donoho-Elad-Temlyakov, IEEE Transactions on Information Theory, 2004 .
Das Skizzieren von Histogrammen wurde ausführlich in Streaming- und Datenbankliteratur untersucht, z. B.
Gilbert-Guha-Indyk-Kotidis-Muthukrishnan-Strauss, STOC 2002 oder
Thaper-Guha-Indyk-Koudas, SIGMOD 2002 .
Modelle. (auch von Arnab erwähnt). Eine andere Verallgemeinerung besteht darin, Einschränkungen für die Sparsity-Muster einzuführen. Sei eine Teilmenge von Teilmengen von {1 ... n}. Wir sagen , dass ist -sparse wenn der Träger von in einem Element enthalten ist . Wir können jetzt das Problem (nennen es ):MkuMuMPM
Design so, dass für jedes where wiederhergestellt werden kannAxx′∥x−x′∥L≤
minx"C∥x−x"∥R , wobei über alle sparsamen Vektoren reicht.x"M
Beispielsweise könnten die Elemente von die Form , wobei jedes einem "Unterblock" von {1 ... n} mit einer gewissen Länge , dh ist von die Form {jb + 1 ... (j + 1) b} für einige . Dies ist das sogenannte "Block-Sparsity" -Modell. MI1∪…∪IkIibIij
Der Vorteil von Modellen ist, dass man im Vergleich zum generischen Sparsity-Ansatz die Anzahl der Messungen einsparen kann. Dies liegt daran, dass der Raum von sparsamen Signalen kleiner ist als der Raum aller sparsamen Signale, so dass die Matrix weniger Information bewahren muss. Weitere Informationen finden Sie unter
Baraniuk-Cevher-Duarte-Hegde, IEEE-Transaktionen zur Informationstheorie, 2010 oder
Eldar-Mishali, IEEE-Transaktionen zur Informationstheorie, 2009 .kMkA
Hoffe das hilft.
Ich nehme an, dass auf der Ebene der Allgemeinheit, auf der ich die Frage gestellt habe, die Arbeit "Compression of samplable sources" von Trevisan, Vadhan und Zuckerman (2004) ebenfalls eine mögliche Antwort darstellt. Sie zeigen, dass in vielen Fällen, wenn die Quelle von Eingabezeichenfolgen von geringer Komplexität ist (z. B. von Logspace-Maschinen abgetastet werden kann), eine additive Konstante in Polynomzeit komprimiert und dekomprimiert werden kann, um sie von der Entropie der Quelle zu entfernen.
Ich weiß jedoch nicht genau, ob die komprimierte Abtastung in eine größere Theorie der Komprimierung eingeordnet werden kann.
quelle
Ein Analogon der Kompressionsmessung ist das maschinelle Lernen, wenn Sie versuchen, einen hochdimensionalen Gewichtungsvektor (z. B. bei der Klassifizierung / Regression) aus einer sehr kleinen Stichprobengröße zu schätzen. Um mit unterbestimmten linearen Gleichungssystemen in solchen Situationen fertig zu werden, erzwingt man typischerweise eine Sparsity (über 10 oder 11 Strafen) für den zu lernenden Gewichtsvektor. Berücksichtigen Sie das folgende Klassifizierungs- / Regressionsproblem beim maschinellen Lernen, um die Verbindung zu erkennen:
Stellen Sie die N Beispiele für D Dimensionen (D >> N) als eine NxD-Matrix X dar. Stellen Sie die N Antworten (eine für jedes Beispiel) als einen Nx1-Vektor Y dar. Das Ziel besteht darin, nach einem Dx1-Vektor-Theta über die folgende Gleichung zu lösen : Y = X * Theta
Hier ist die Analogie zu diesem Problem beim Compressive Sensing (CS): Sie möchten Theta schätzen / messen, das ein D-dimensionaler Vektor ist (ähnlich einem unbekannten "Signal" in CS). Um dies abzuschätzen, verwenden Sie eine Matrix X (ähnlich der Entwurfsmatrix in CS) und N 1-D-Messungen Y (ähnlich dem komprimierten Signal in CS, da D >> N).
quelle
Siehe: http://www.damtp.cam.ac.uk/user/na/people/Anders/Inf_CS43.pdf
quelle