So machen Sie den nicht durchsuchbaren Inhalt bestimmter PDFs durchsuchbar

3

Während ich mit den meisten PDF-Dateien über die Windows-Suche nach Inhalten suchen kann, stoße ich gelegentlich auf PDF-Dateien mit Inhalten, die nicht durchsuchbar sind. obwohl sie normalen, auswählbaren / kopierbaren Text ohne Formatabweichungen enthalten.

Ein Beispiel ist das PDF dieses Artikels: http://www.ncbi.nlm.nih.gov/pubmed/23870130 (sowohl die CellPress-Version als auch die PMC-Version enthalten nicht durchsuchbare Inhalte)

Gibt es eine Möglichkeit, solche PDFs durchsuchbar zu machen? Oder muss man für jedes Dokument spezifische Lösungen verwenden? Was wären diese Lösungen?

Esoppant
quelle
1
Ich kann das PDF auf der von Ihnen verlinkten Seite nicht finden. Bitte geben Sie den Link zur aktuellen PDF-Datei an oder laden Sie sie an einen zugänglichen Ort
hoch
2
FWIW, ich folgte dem Link hierher: ncbi.nlm.nih.gov/pmc/articles/PMC3753670/pdf/nihms496383.pdf . Ich habe diese Datei zu meinem Dokumentenordner hinzugefügt und sofort danach gesucht, metabolicund sie wurde in diesem Dokument gefunden.
USlackr
1
Im Allgemeinen können die Dokumente nicht durchsucht werden, da der Text nicht als Text gespeichert wird, sondern als Bild eines Seitenlayouts, das Text als binäre Blob-Daten enthält. In diesen Fällen habe ich das Dokument normalerweise gescannt und mit OCR versehen. Es gibt eine Online-OCR-Anwendung, die Ihren Anforderungen entspricht: onlineocr.net
Frank Thomas
1
Stellen Sie sicher, dass der Ordner, in dem sich das Dokument befindet, Teil des Index ist. Siehe Indizierungsoptionen
uSlackr

Antworten:

1
  1. Stellen Sie zunächst sicher, dass die Windows-Suchindizierung aktiviert ist und dass Windows die Indexierung von Dateiinhalten und nicht nur die Indizierung von Eigenschaften vornimmt.
  2. Stellen Sie sicher, dass PDF in indizierten Dateitypen enthalten ist Bildbeschreibung hier eingeben
  3. Stellen Sie sicher, dass das Verzeichnis, in dem Sie PDF speichern, in der Liste der indizierten Speicherorte enthalten ist Bildbeschreibung hier eingeben
  4. Starten Sie den SearchIndexer.exe-Prozess erneut Bildbeschreibung hier eingeben
  5. Erstellen Sie als letzte Möglichkeit den Index neu und starten Sie den Windows-Suchdienst neu Bildbeschreibung hier eingeben

Bildbeschreibung hier eingeben

Art Gertner
quelle