Wir haben Probleme damit, dass Google die PDF-Dateien auf unserer Website indiziert. Es gibt ungefähr 50 PDF-Dateien mit einer Größe von 20 KB bis etwas weniger als zwei Megabyte. Sie sind nicht geschützt, können anonym gelesen werden und innerhalb von PDF Reader können Sie das Dokument durchsuchen.
Sie sind in der SiteMap.xml aufgeführt. Ich kann mir sogar die IIS-Protokolle ansehen und sehen, wie Googlebot die PDF-Dateien liest, aber bis auf fünf sind sie nie in den Suchergebnissen enthalten.
Wenn ich ein filetye: pdf mache, tauchten nur fünf PDFs auf. Wenn ich nach Text suche, von dem ich weiß, dass er sich in einer PDF-Datei befindet, werden die PDF-Dateien nie angezeigt (mit Ausnahme der fünf indizierten).
Hat jemand eine Ahnung, warum das über 45-jährige PDF-Dokument nicht in den Index aufgenommen wird, obwohl es sich in der Sitemap befindet und von Googlebot gelesen wird?
quelle
Antworten:
befinden sich alle pdfs am selben ort? Ich hatte einmal das Problem, dass sich einer meiner PDF-Speicherorte in einem Ordner befand, der von der robots.txt ausgeschlossen wurde. Senden Sie Ihre Sitemap direkt an die Google-Webmaster-Tool-Site, und Sie erhalten möglicherweise wertvolle Informationen darüber, warum die PDFs nicht angezeigt werden. In meinem Fall sagte mir Google: "Hey, diese 54 PDF-Dokumente befinden sich in Ihrer Sitemap, aber aufgrund der Einschränkungen von robots.txt können wir sie nicht indizieren." das war also ziemlich hilfreich. Aber beachten Sie, was der Kommentator sagt, es kann eine Weile dauern, bis diese Informationen angezeigt werden.
Google Webmaster-Tools: https://www.google.com/webmasters/tools
quelle
Es kann eine ziemliche Verzögerung zwischen dem ersten Lesen Ihres Inhalts durch Google und dem Anzeigen im Index geben. Wir haben kürzlich eine Website neu gestartet und beim Start Sitemaps an Google gesendet. Es dauerte ca. 3 Wochen, bis die neuen Seiten in den Suchergebnissen angezeigt wurden.
Wie lange ist es her, dass Sie diese PDFs über Ihre Sitemap eingereicht haben?
Es hört sich so an, als würden Ihre PDFs indiziert, aber es dauert einige Zeit. Unter der Annahme, dass es keinen Unterschied in der Art und Weise gibt, wie die nicht indizierten PDF-Dateien erstellt wurden, würde ich vermuten, dass die Aktualisierung des Index nur eine Weile dauert.
Ein nützliches Tool, für das ich die Anmeldung empfehlen würde, ist Google Webmaster. Es zeigt Ihnen die Crawling-Rate, Probleme mit Ihrer Website, Sitemaps und die Indizierung innerhalb eines Tages, nachdem der Googlebot Ihre Website erreicht hat. Dadurch sparen Sie möglicherweise etwas Zeit beim Durchsuchen Ihrer IIS-Protokolle.
quelle
Werden Ihre PDF-Dateien mit OCR gescannt, sodass der Text ausgewählt und durchsucht werden kann? Oder werden die PDF-Dateien ohne OCR gescannt. In diesem Fall wird der Text als großes Bild gespeichert. Wenn das PDF alle Bilder enthält, kann Google es (noch) nicht indizieren. Oder hat Google Ihre Seiten inzwischen gefunden?
quelle
Sie können es manuell an Google senden. Dies beschleunigt gelegentlich den Vorgang.
quelle