Was ist der "Artikel von 2001" zum Blockieren von "automatisierten Abrufprogrammen", auf den in der Manpage wget verwiesen wird?

11

Die wgetManpage gibt dies unter dem Abschnitt für den --random-waitParameter an:

    Some web sites may perform log analysis to identify retrieval
    programs such as Wget by looking for statistically significant
    similarities in the time between requests. [...]

    A 2001 article in a publication devoted to development on a popular
    consumer platform provided code to perform this analysis on the
    fly.  Its author suggested blocking at the class C address level to
    ensure automated retrieval programs were blocked despite changing
    DHCP-supplied addresses.

Ich möchte eine Kopie dieses Artikels zum Lesen erhalten und habe viele Suchanfragen im Internet durchgeführt, um den Artikel zu ermitteln. Bei diesen Suchanfragen kann ich jedoch nur die Manpage finden, wgetdie auf verschiedenen Websites gehostet wird. und einige andere Forschungsarbeiten, die überhaupt keinen Bezug zu diesem Thema haben.

Weiß jemand, auf welchen Artikel verwiesen wird und wo ich eine Kopie erhalten kann?

user2064000
quelle
Ich habe die Wget-Mailingliste durchsucht
Folgendes

Antworten:

15

Auch wenn dies keine direkte Antwort ist, git blameund git logzeigen Sie, dass dieser Abschnitt in Commit 2c41d783 von einem Committer namens hniksicHrvoje Niksic eingeführt wurde. Seine E-Mail-Adresse finden Sie in der ChangeLogDatei von wget (ich werde sie aus offensichtlichen Gründen hier nicht veröffentlichen). Ich würde vorschlagen, ihn direkt zu fragen, da er möglicherweise der Beste ist, um eine angemessenere Antwort zu geben. Währenddessen könnten Sie ihn fragen, ob es ihm etwas ausmachen würde, die Manpage entsprechend zu aktualisieren. ;)

Andreas Wiese
quelle
4

Ich denke, es könnte dieser Artikel sein:

Erstellen aussagekräftiger Daten aus Webprotokollen mit Basis-SAS

Es gibt einen Absatz über das Blockieren von Bereichen der Klasse C:

Sobald die IP-Adresse in ihre Komponenten unterteilt ist, ist das Filtern von IP-Adressbereichen einfach. Ein Filter der Klasse B wird gegen die ersten beiden Oktette durchgeführt, z. B. 168.126.xx.xx. Dies ist die Variable Onetwo im obigen Codebeispiel. Bereiche der Klasse C werden häufiger verwendet, da sie auf ganze Server abzielen und drei der vier Oktette verwenden, z. B. 168.126.56.xx. Im obigen Codebeispiel ist dies das Feld Drei, vorausgesetzt, Usrhost ist der TCP / IP-Adresswert des Webprotokolls.

Und eine Erwähnung wgetin der Zeichenfolgen-basierten Blockierung von Benutzeragenten:

Unsere bevorzugte Methode zur Identifizierung von Benutzeragentenzeichenfolgen verwendet die Indexmuster-Matching-Funktion. Beispielsweise:

if index(lowcase(agentstr), 'keynote') or
index(lowcase(agentstr), 'sureseeker') or
index(lowcase(agentstr), 'wget') or

Es war das fünfte Ergebnis in Googeln für "Log Analysis Wget" für das Jahr 2001 .

muru
quelle