Anfragen pro Sekunde zwischen einem Webbrowser und einem Web Scrapper [geschlossen]

0

Mein Verständnis: Wenn ein Webbrowser eine Anfrage zum Anzeigen einer Seite stellt, antwortet der Server mit dem HTML-Code. Anschließend rendert der Webbrowser diesen HTML-Code und sendet Anforderungen für jedes eingebettete Objekt (z. B. Bilder), das im HTML angezeigt wird, in weniger als einer Sekunde (Geben oder Nehmen) an den Server. Mit einem Web Scrapper fordere ich jedoch den Server auf, nur den HTML-Code zu erfassen und den HTML-Code überhaupt nicht zu rendern.

Gemäß der richtigen Etikette für Web Scrapping sollten Sie Ihre Anforderungen auf maximal eine pro Sekunde beschränken, um den Server nicht zu überlasten.

Warum ist es also kein Problem, wenn der Webbrowser eine Anfrage für jedes eingebettete Objekt sendet (mehrere Anfragen pro Sekunde), aber ein Web Scrapper mehrere Anfragen pro Sekunde sendet, nur für die HTML-Quelle für verschiedene Seiten?

bmanv13
quelle

Antworten:

1

Die Gründe, warum Web-Scraper (keine Scrapper) eine Verzögerung verwenden, sind:

  • um zu verbergen, dass sie das Internet durchsuchen und von Websites, die sie durchsuchen möchten, gebannt werden (durch leichte Verzögerungen zwischen den Seiten ähneln sie eher einem Webbrowser, der von einem Menschen bedient wird, der im Internet surft)
  • aus Höflichkeit gegenüber dem Eigentümer der Website (das Anfordern einer großen Anzahl von Daten in sehr kurzer Zeit könnte den Server überlasten und die Website für andere Benutzer der Website als nicht mehr reagierend erscheinen lassen)

Wenn Ihr Browser (oder ein Web-Scraper) eine Seite anfordert, muss zwischen dem Anfordern von Objekten auf derselben Seite keine Sekunde gewartet werden. Es kann sie sofort anfordern - dies führt zu einer besseren Benutzererfahrung (schnelleres Laden der Seite).

Was ein "normaler" Benutzer nicht tun kann, ist, innerhalb kürzester Zeit verschiedene Seiten anzufordern. Ein Benutzer schaut sich eine Seite an, klickt auf einen Link, um zur nächsten Seite zu gelangen usw.
Wenn ein Benutzer eine Website durchsucht, kann es daher zu Verzögerungen kommen, wenn verschiedene Seiten von derselben Website angefordert werden. Dies ist sehr wahrscheinlich die Verzögerung von 1 Sekunde, die Sie in Ihrer Frage erwähnt haben.

Um eine Site schnell abzukratzen, möchten Web-Scraper natürlich die kürzestmögliche Verzögerung verwenden. Sie werden verschiedene Methoden verwenden, um den Prozess zu beschleunigen (z. B. mehrere Websites gleichzeitig durchsuchen; es sieht so aus, als ob die Anforderungen von mehreren verschiedenen Benutzern stammen).
Für Web Scraper gibt es immer einen Kompromiss zwischen den Gründen für eine Verzögerung und der Notwendigkeit, die Arbeit zu erledigen.

Weitere Informationen finden Sie im Eintrag auf Wikipedia

NZD
quelle
Grundsätzlich kommt es zu Verzögerungen, wenn der Mensch den Inhalt verdaut, auch wenn der Webbrowser eines Menschen dies schneller anfordert. Es kommt also zu Verkehrsspitzen, wenn die neue Seite oder der neue Inhalt geladen wird, und dann zu einer Pause, wenn der Mensch liest oder zuschaut. Bei einem Scraper besteht die Möglichkeit, dass der Server ständig stark beansprucht wird, da der Scraper den Inhalt nicht verdauen, sondern nur speichern muss.
music2myear