Wie kann man feststellen, wie alt eine Seite ist?

15

Ich dachte, Google sei mehr oder weniger genau darin, festzustellen, wer zuerst einen Text gepostet und wer kopiert hat. Wenn ich jedoch das "Suchwerkzeug: benutzerdefiniertes Intervall" verwende, sind die Ergebnisse ziemlich merkwürdig. Ich habe Seiten aus dem Jahr 2002 für eine Website gefunden, die ich erst seit ein paar Jahren habe.

Daher ist Google nicht in der Lage, herauszufinden, wer das Original kopiert und wer es geschrieben hat. Was ist?

Bildbeschreibung hier eingeben

Wenn stackexchange.comim Jahr 2009 erstellt wurde, wie ist das möglich? hermeneutics.seist älter als Stack Overflow!

Renan
quelle
Besaß jemand den Domainnamen vor Ihnen? Welche Seite (n) vergleichen Sie in Google?
Closetnoc
Ich habe die Frage mit SE-Daten aktualisiert. Die Zeitstempel können nicht genau sein.
Renan
2
Beeindruckend. Ich bin mir nicht sicher. Ich verstehe die Mechanismen normalerweise, aber was Google tut, ist immer noch ein Rätsel. Im Internet gibt es nur sehr wenige Informationen darüber, wie Google Daten ermittelt. Wir hatten vor einiger Zeit eine Frage dazu, wie Google Änderungsdaten ermittelt. Ich habe nachgeforscht und es gibt fast nichts. Trotzdem werde ich nochmal schauen. Aber es kann ein paar Tage dauern. Denken Sie daran, dass CMS-Software und wahrscheinlich der SE-Code keine Erstellungs- und Änderungsdaten zurückgibt, wie dies Apache für HTML-Seiten tun würde. Und das könnte die Antwort sein.
Closetnoc
Es muss nicht Google sein, aber ich möchte wirklich wissen, ob meine Nutzer plagiieren oder plagiiert werden. = /
Renan
Bisher sieht es so aus, als würde Google das Datumsformat in HTML nicht verstehen, aber das ist nicht schlüssig. Der Quellcode der ersten Beispielseite enthält keine eindeutigen Datumsangaben für Google. Das Aussehen von Google oder ein Datum in dieser Reihenfolge: URL, Titel, Text (Inhalt), Meta-Tags, Datum der letzten Änderung aus der HTTP-Antwort. Eine HEAD-Anfrage gibt das Erstellungsdatum und das Datum der letzten Änderung zurück. Außerdem gibt ein GET mit if-modified-since die Ressource entweder mit 200 Ok oder mit 304 Not Modified zurück. Der SE-Code gibt diese möglicherweise nicht zurück, und es sind nur URL-, Titel-, Inhalts- und Metatags verfügbar.
closetnoc

Antworten:

12

Die Antwort auf diese Frage habe ich folgendermaßen recherchiert: Verwenden von Google, da dies das Beispiel ist, das ich habe, wie Google Erstellungsdaten und Änderungsdaten sowie Datumsformate erhält, die Google erkennt. Bitte haben Sie Verständnis dafür, dass diese Informationen nicht nur auf wenigen Seiten vorhanden sind und ich musste die Daten aus sehr vielen Quellen heraussuchen, von denen einige nicht direkt zutreffen, und sie zusammenfügen. In einigen Fällen stammen die Informationen aus mehreren Quellen und sind nicht immer zitierbar.

Google sucht in dieser Reihenfolge nach Seitendaten. URL, Title-Tag, Body (Inhalt), Meta-Tags, HTTP-Response-Header, zumindest für die Google Search Appliance. In anderen Absätzen in anderen Dokumenten wurde keine Reihenfolge dokumentiert, aber die Liste wurde diskutiert und schien die Liste zu bestätigen. Wenn Sie darüber nachdenken, spiegelt dies die Reihenfolge wider, in der eine Suchmaschine arbeiten würde. Erstens: Entdecken Sie Ihre Seite (Link) und zweitens: Lesen Sie Ihre Seite von oben nach unten (Titel, Text und Meta-Tag) mit Ausnahme des Meta-Tags (kleines Detail) und des HTTP-Antwort-Headers. Hier ist die Liste für das Gerät:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule

Hinweis: Das Startdatum ist das Datum, an dem die Seite zum ersten Mal von Google angefordert wurde. Wenn kein Erstellungsdatum vorliegt, wird das Anfangsdatum verwendet.

1] Jede Suchmaschine kann eine Ressource über eine HTTP-GET-Anforderung anfordern, und der Webserver gibt das letzte Änderungsdatum im Antwortheader mit der Ressource im Datenpaket zurück.

2] Jede Suchmaschine kann Headerinformationen einer Ressource über eine HTTP-HEAD-Anforderung anfordern und der Webserver gibt das Änderungsdatum im Antwortheader ohne die Ressource im Datenpaket zurück.

3] Jede Suchmaschine kann anfordern, ob eine Ressource seit einem bestimmten Datum geändert wurde, indem sie eine Ressource mit einem HTTP-GET anfordert, bei dem if-modified-since auf ein Datum festgelegt ist. Wenn die Ressource seit dem festgelegten Datum geändert wurde, antwortet der Webserver mit einer 200-OK-Antwort und gibt die Ressource zurück. Wenn die Ressource seit dem festgelegten Datum nicht geändert wurde, antwortet der Webserver mit 304 Not Modified, ohne die Ressource zurückzugeben .

Google stellt mithilfe von Methode 3 viele Anfragen, um Bandbreite zu sparen. Sie sehen diese in Ihren Webserver-Protokolldateien.

Hinweis: Möglicherweise kann ein Content-Management-System (CMS) oder eine andere Software das Datum in einem Antwortheader nicht ordnungsgemäß bereitstellen.

Diese Datumsbeispiele stammen ebenfalls aus der Dokumentation der Google Appliance, sind jedoch auch an anderen Stellen in Bezug auf die allgemeine Suche vorhanden. Ich habe diese Details der Gerätedokumentation entnommen, weil sie ausgeschnitten und als Liste eingefügt werden konnten, wo sie an anderen Stellen nicht so ordentlich waren.

4] Google sucht nach einem Datum in der URL. Es sucht nach den folgenden Formaten; JJJMMTTHH - JJJJ - JJJJMM.

5] Google sucht nach einem Datum innerhalb des Titel-Tags. Es sucht nach den folgenden Formaten; JJJMMTTHH - JJJJ - JJJJMM, obwohl ich vermute, dass andere Formate erkannt werden können. Siehe unten.

6] Google sucht nach einem Datum im Body-Tag (Inhalt). Es sucht nach den folgenden Formaten; YYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - YYMMMDD - MMDDYYYY - YYMMDD - DDMMYY - MMDDYY obwohl ich vermute, dass andere Formate erkannt werden können. Siehe unten.

Hinweis: Es ist bekannt, dass Google speziell nach einem Datum direkt unter dem ersten H1Tag sucht . Dies liegt daran, dass in Blogs häufig Daten an dieser Stelle platziert werden.

7] Google sucht nach einem Meta-Tag wie diesem. <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />

Google soll auch die folgenden Datumsformate erkennen.

JJJJ-MD - JJJJ.MT - JJJJ / M / T - JJJJ - JJJJ - M / T / JJJJ - JJ-MM-TT - JJ.MM.TT - JJ / MM / TT - WK, T MON, JR - WK, MON D, YR - T MON, YR - MON YYYY - MON D, YR - MON YYYY-DM - ​​YYYY.DM - YYYY / D / M - DM-YYYY - DMYYYY - T / M / YYYY - TT-MM-JJ - MM-TT-JJ - TT / MM / JJ - MM / TT / JJ - JJJJMMTTHH - JJJJMMTT - JJJJMM - JJJJ - TTMMJJJ - TTMMJJJ - JJJJJ

Die Forschung, die ich fand, beantwortete nicht die Frage der Zeit.

Bei den angeführten Beispielen enthalten die Seiten keine Datumsangaben, außer innerhalb eines span-Tags, das möglicherweise ignoriert wird. Es ist möglich, dass die SE-Software / der SE-Webserver keine Erstellungs- und Änderungsdaten in einem Antwortheader zurückgeben kann.

Warum und wie Google diese Daten ableitet, ist eine gute Frage, die möglicherweise nie geklärt werden kann. Ich werde aber weiter suchen.

closetnoc
quelle
3
Haben Sie eine Referenz zu "Google sucht in dieser Reihenfolge nach Seitendaten; URL, Titel-Tag, Text (Inhalt), Meta-Tags, HTTP-Antwort-Header."? Haben Sie eine Nummer oder Statistik für diese Untersuchung ?. Wenn Sie Referenzen für das posten könnten, was Sie hier gepostet haben, wäre dies für uns alle viel besser.
PatomaS
Ich weiß es zu schätzen, dass du das fragst. Vieles, was ich fand, war in Stücke gerissen. Die Liste wurde an mehreren Stellen gefunden, aber die Reihenfolge wurde in der Dokumentation für die Google Search Appliance gefunden und an anderen Stellen in Absätzen gesichert. Ich habe mir buchstäblich mehrere Dutzend Dokumente angesehen, deren Suche ziemlich lange gedauert hat. Ich versuchte vorsichtig zu sein und zu sagen, dass ich die Daten aus verschiedenen Quellen zusammenfügen musste, da es keine direkten Informationen zu diesem Thema zu geben schien. Ich werde die Aussage überarbeiten, um sie klarer zu machen.
Closetnoc
Ich kann auch bestätigen, dass die folgende Datumsformat-Zeichenfolge, die auf einer bestimmten article.post > div.post-content > h2 > pEbene enthalten ist, kürzlich von Google aufgenommen und zur Anzeige des Datums verwendet wurde: "Letzte Aktualisierung: 7. Oktober 2018"
Matt
-2

Wenn Sie wissen möchten, wie alt eine Domain ist, suchen Sie bei Google nach Wayback-Computern . Diese Seite ist das, wonach Sie suchen: http://archive.org/web/ .

Wenn Sie Plagiate entdecken möchten, hilft Ihnen dieser Link: http://copyscape.com/signup.php?pro=0&o=f

Suchen Sie auch bei Google nach "Plagiatsprüfer".

Hoffe ich habe geholfen.

Pascut
quelle
3
In Bezug auf Respekt müssen Sie die Frage erneut lesen.
Closetnoc
Die Frage lautet: "Wie kann man feststellen, wie alt eine Seite ist?" Bitte folge meinem Link und du wirst sehen, dass die Antwort gut ist. Danke fürs Lesen.
Pascut
3
Sie lesen die Frage nicht. Sie lesen den Titel. Der Rückweg Maschine beantwortet die Frage nicht.
Closetnoc
Sie haben Recht, ich habe meine Frage bearbeitet ..
Pascut
1
Wayback-Maschine verfolgt die Seite in der Domäne. Es ist nicht sinnvoll, Daten zwischen bestimmten Seiten zu vergleichen. Ich suche nach genauen Mitteln, um festzustellen, welches zuerst veröffentlicht wurde.
Renan