Kürzlich habe ich gesehen, dass scribd es für Benutzer (kostenlose Benutzer) sehr schwierig macht, ein auf ihrer Site gehostetes Dokument zu durchsuchen. Es gibt keine Möglichkeit, innerhalb eines Dokuments zu suchen, geschweige denn es herunterzuladen.
Mit Javascript laden sie Seiten bei Bedarf in den Browser, und daher hilft die Funktion "Speichern unter" des Browsers nicht viel.
Zu meinem Erstaunen sah ich, dass sogar das Kopieren / Einfügen von Texten Kauderwelsch in die Zwischenablage kopiert! Um herauszufinden, was falsch war, habe ich Javascript im Browser deaktiviert und dann das gleiche Dokument erneut geladen. Voila, ich habe den Kauderwelsch gesehen. Und so sieht es so aus, als würde das Javascript von scribd den Kauderwelsch-Text entschlüsseln und ihn dann im Browser anzeigen.
Jetzt ist meine Frage, auch wenn Javascript aktiviert ist und der Text im Browser korrekt gerendert wird. Wenn ich die DOM-Objekte betrachte, die dem von mir ausgewählten Text entsprechen, sehe ich immer noch den Kauderwelsch-Text.
Jetzt bin ich verwirrt. Der Text wird dem Benutzer in Ordnung angezeigt, aber die DOM-Objekte enthalten weiterhin Kauderwelsch. Die Frage ist also, welche Art von Javascript-Hooks / -Code verwendet die Site, um den Kauderwelsch in den DOM-Objekten beizubehalten und den dekodierten Text dennoch zu rendern?
Gibt es eine Möglichkeit, auf den dekodierten Text zuzugreifen? Meine Absicht ist es nicht, den zu dekodierenden Algorithmus rückzuentwickeln, sondern herauszufinden, wo der dekodierte Text gespeichert ist.
Beispieldokument ist:
Sehen Sie, was passiert, wenn Sie Javascript ein- oder ausschalten!
quelle
Antworten:
Schauen Sie sich die
font-family
für diespan
. Sie verwenden eine benutzerdefinierte Schriftart (in diesem Fallff6
).Sie müssen dies tun, damit mehr PDF-Dokumente korrekt angezeigt werden. Wie bei PDF-Dokumenten ist es nicht erforderlich, dass der Text im Dokument einen Standardzeichensatz verwendet. Es muss nur ein Code verwendet werden, der den Glyphen in der eingebetteten Schriftart entspricht.
quelle
Wenn Sie den angezeigten Text im Vergleich zum "Kauderwelsch" betrachten, können Sie feststellen, dass einige der Buchstaben gleich sind, während einige der Buchstaben ersetzt werden. Beispielsweise ist "Mltmrprfsm Jblbemr" "Enterprise Manager". Wenn genügend Text vorhanden ist, sollten Sie in der Lage sein, eine schnelle Übersetzungstabelle zu erstellen. Wir wissen bereits, dass M für E , L -> N , T , R und P steht , F -> R usw. Bei einiger Zeit, Detektivarbeit und geringen Programmierkenntnissen könnte man das gesamte Dokument übersetzen.
Natürlich gibt es keine Garantie dafür, dass das nächste Dokument dieselbe
ff6
Schriftart verwendet, die Dan D. erwähnt hat. Wenn Sie also den Text für eine spätere Verwendung speichern möchten, sollten Sie diese Schriftart für die lokale Verwendung bereitstellen.quelle
Sie können versuchen, einen Screenshot mit dem Crop-Tool des Browsers aufzunehmen und ihn dann mithilfe einer beliebigen verfügbaren Online-Site in Text umzuwandeln. Das sollte dich erledigen.
quelle