Was ist der Unterschied zwischen globalen und universellen Komprimierungsmethoden?

12

Ich verstehe, dass Komprimierungsmethoden in zwei Hauptgruppen aufgeteilt werden können:

  1. global
  2. lokal

Die erste Menge funktioniert unabhängig von den verarbeiteten Daten, dh, sie stützt sich auf keine Dateneigenschaften und muss daher (vor der eigentlichen Komprimierung) keine Vorverarbeitung für einen Teil der Datenmenge durchführen. Auf der anderen Seite analysieren lokale Methoden die Daten und extrahieren Informationen, die normalerweise die Komprimierungsrate verbessern.

Während ich über einige dieser Methoden las, bemerkte ich, dass die unäre Methode nicht universell ist , was mich überraschte, da ich dachte, dass "Globalität" und "Universalität" sich auf dasselbe beziehen. Die unäre Methode stützt sich nicht auf die Eigenschaften der Daten, um ihre Kodierung zu erhalten (dh sie ist eine globale Methode), und deshalb sollte sie global / universell sein, nicht wahr?

Meine primären Fragen:

  • Was ist der Unterschied zwischen universellen und globalen Methoden?
  • Sind diese Klassifikationen nicht Synonyme?
Rubens
quelle
2
Können Sie eine Verknüpfung zu / reference herstellen, in der Sie lesen, dass die unäre Methode nicht universell ist? Kontext kann helfen.
Air
3
Ich bin mir nicht sicher, in welcher Beziehung dies zur Datenwissenschaft steht. Es scheint für diesen Stapelaustausch nicht zum Thema zu gehören. Könnten Sie dies möglicherweise auf die Datenwissenschaft zurückführen?
Slater Victoroff
@ SlaterTyranus Ich bin mir auch nicht sicher (und das brachte mich dazu, über zwei andere Fragen nachzudenken, die ich gestellt habe). Ich wollte diese Frage hinzufügen, da beim Abrufen von Informationen (hauptsächlich während der Indizierung) überwiegend Komprimierungsmethoden verwendet werden. Im Allgemeinen stelle ich fest, dass dies mit der Effizienz zusammenhängt, und es kann in den Bereich der Hacking-Fähigkeiten dieses Venn-Diagramms gestellt werden . Wie auch immer, ich denke, es wäre schön zu diskutieren, ob diese Art von Frage zum Thema gehört.
Rubens
@Rubens Das scheint eine vernünftige Diskussion zu sein, in meinen Augen passt Effizienzvortrag viel mehr in so etwas wie theoretisches CS als explizite Hacking-Fähigkeiten . In meinen Augen hängen Hacking-Fähigkeiten viel mehr mit Dingen wie Datenbanken, Bereitstellung und Toolkenntnissen zusammen.
Slater Victoroff
1
@SvanBalen Zwei Hauptpunkte: 1. Informationstheorie ist in einigen Ansätzen der Datenwissenschaft wichtig, in vielen anderen jedoch irrelevant. 2. Grundlagen sind von Natur aus nicht thematisch, eine detaillierte Frage zu Statistik oder linearer Algebra wäre in ähnlicher Weise nicht thematisch, obwohl beide für nützliche Datenwissenschaften unbedingt erforderlich sind.
Slater Victoroff

Antworten:

3

Betrachten Sie den folgenden Datenblock:

1010010110100101

Universal - Dies sind generische Komprimierungsalgorithmen, die datenunabhängig sind. Eine grobe Version der Lauflängencodierung würde in diese Kategorie fallen. Der Vorteil ist, dass es sehr schnell komprimiert und dekomprimiert werden kann. Der Nachteil ist, dass es aufgrund der zu komprimierenden Daten äußerst unwirksam sein kann.

11111111111111 -> 16 1 (Glücksfall)

1010010110100101 -> 1010010110100101 (unglücklicher Fall)

Lokal - Bei dieser Methode werden kleinere Segmente mit fester Länge (z. B. 4) berücksichtigt, nach Mustern gesucht und komprimiert. Z.B. Diese Daten enthalten nur diese beiden Mustertypen - 1010 und 0101. Diese Muster können als 0s und 1s dargestellt werden, und die Gesamtdaten sind eine Tabelle, die die Zuordnungen darstellt, und so etwas wie 0101. Dies kann zu einem viel kleineren Muster führen komprimierte Größe.

1010010110100101 -> 1010 0101 1010 0101 -> 0101 (0 = 1010,1 = 0101)

Global - Diese Methode würde die gesamten Daten betrachten und die optimalen / viel besseren Muster zum Komprimieren der Daten finden. Die Beispieldaten enthalten nur ein Muster 10100101 und stellen es zusammen mit der Zuordnungstabelle als 00 dar. Dies hat das Potenzial, die kleinstmögliche komprimierte Größe zu erhalten, ist jedoch auch rechnerisch die schwerste.

1010010110100101 -> 10100101 10100101 -> 00 (0 = 10100101)

Doodhwala
quelle