Wie genau schnüffelt Content, um den Dateityp zu bestimmen?

-1

Ich muss den MIME-Typ von Dateien ohne Dateierweiterung identifizieren (Dokumentdateiformate wie PDF, doc, docx usw.) und frage mich, wie genau bekannte Dateisignaturen sind.

Ich werde eine Karte der Dateitypen und ihrer Signaturen erstellen. Und dann lesen Sie die Hex-Werte aus jeder Datei. Ich werde .NET dafür verwenden und das Schnüffeln in meine Anwendung aufnehmen. Das Problem ist, dass ich in der .NET-Welt keine gute Bibliothek finde, die dies tut, und deshalb werde ich versuchen, meine eigene zu schreiben. Meiner Meinung nach sollte es ziemlich trivial sein, da ich nur an einer kleinen Teilmenge der Dateiformate interessiert bin.

Bj Blazkowicz
quelle

Antworten:

1

Es wird für einige Dateitypen einfach und für andere schwierig bis unmöglich. Jeder Dateityp ist unterschiedlich. In einer Datei gibt es keinen Punkt, der angibt, um welchen Typ es sich handelt. Zum Beispiel haben JPEG-Bilder eine sehr gut erkennbare Kopfzeile mit bestimmten Signaturen, Fußzeilen und sind leicht zu identifizieren. Nur-Text-Dateien sind jedoch überhaupt nicht mit Metadaten verknüpft. Wenn Sie sie als Rohdaten betrachten, sehen Sie, dass die Textinformationen nur zwischen der vorherigen und der nächsten Datei püriert werden. Wenn Sie die Datei haben, können Sie möglicherweise die gesamte Datei scannen, um sicherzustellen, dass es sich um ASCII- oder Unicode-Dateien handelt.

Es wäre sehr aufwändig, eine solche Identifizierungsmethode für eine beträchtliche Anzahl von Dateitypen zu finden. Sie sollten nach einem bereits verfügbaren Tool suchen, mit dem die meisten für Sie wichtigen Typen identifiziert werden können. Hier ist zum Beispiel ein Windows-Programm , das so etwas macht und 5.944 Definitionen von Dateitypen hat.

Können Sie weitere Informationen darüber bereitstellen, was Sie tun möchten? Was ist die magische Zahl?

Datarecovery.com MK
quelle
Ich interessiere mich nur für verschiedene Dokumentdateiformate wie pdf, doc, docx usw.
Bj Blazkowicz
Erfahren Sie, wie die TrIDNet-Software funktioniert (tatsächlich in .NET geschrieben). Es sieht so aus, als ob die Befehlszeilenversion Ihnen mehr Flexibilität bei den gewünschten Aufgaben bietet, z. B. das gleichzeitige Bearbeiten vieler Dateien oder das Ändern oder Hinzufügen der richtigen Erweiterung. mark0.net/soft-trid-e.html
Datarecovery.com MK