In meinem Projekt muss das Google-Cache-Alter als wichtige Information hinzugefügt werden. Ich habe versucht, Quellen nach dem Google-Cache-Alter zu durchsuchen, dh nach der Anzahl der Tage, seit Google die aufgelistete Seite zuletzt neu indiziert hat.
Wo kann ich das Google-Cache-Alter ermitteln?
html
url
hyperlink
web-scraping
Tokendra Kumar Sahu
quelle
quelle
Antworten:
Verwenden Sie die URL
Beispiel:
Es enthält einen Header wie folgt:
quelle
robots.txt
; Ich benutze es, um Blogger zu lesen, da unsere Unternehmens-Firewall ihre URL deaktiviert hatcache:
Suchoperator in der Google-Suche verwendenhttps
es erfordert dashttps://
Teil, sonst gibt 404Sie müssen die resultierende Seite kratzen, können jedoch die neueste Cache-Seite unter folgender URL anzeigen :
Google-Informationen werden in das erste Div im Body-Tag eingefügt.
quelle
Sie können die CachedPages- Website verwenden
Zwischengespeicherte Seiten werden normalerweise von großen Unternehmen mit leistungsstarken Webservern gespeichert. Da solche Server normalerweise sehr schnell sind, kann auf eine zwischengespeicherte Seite häufig schneller zugegriffen werden als auf die Live-Seite selbst:
quelle
Es ist zu einfach, Sie können einfach "cache:" vor der URL der Seite eingeben. Wenn Sie beispielsweise den letzten Webcache dieser Seite überprüfen möchten, geben Sie einfach in die URL-Leiste ein
cache:http://stackoverflow.com/questions/4560400/how-can-i-get-the-google-cache-age-of-any-url-or-web-page
Dies zeigt Ihnen den letzten Webcache der Seite. Siehe hier:
Denken Sie jedoch daran, dass das Zwischenspeichern einer Webseite nur angezeigt wird, wenn die Seite bereits in der Suchmaschine (Google) indiziert ist. Dazu müssen Sie das Meta-Robot-Tag dieser Seite überprüfen.
quelle
Sie können diese Site verwenden: https://cachedviews.com/ . Cache-Ansicht oder zwischengespeicherte Seiten einer Website - Google zwischengespeicherte Seiten einer Website
quelle
Dies ist auch gut, um Cachepage http://www.cachepage.net anzuzeigen
Cache-Seitenansicht über Google: webcache.googleusercontent.com/search?q=cache: Ihre URL
Cache-Seitenansicht über archive.org: web.archive.org/web/*/Ihre URL
quelle