Hat ein Unternehmen das Recht impliziert, meine Website zu crawlen?

30

Ich habe herausgefunden, dass McAfee SiteAdvisor meine Website als "möglicherweise sicherheitsrelevant" gemeldet hat .

Es ist mir egal, was McAfee von meiner Website hält (ich kann sie selbst sichern, und wenn nicht, ist McAfee definitiv nicht das Unternehmen, das ich um Hilfe bitten würde, vielen Dank.) Was mich jedoch stört, ist, dass sie anscheinend meine Website ohne meine Erlaubnis gecrawlt haben.

Zur Verdeutlichung: Auf meiner Website befinden sich noch fast keine Inhalte, nur ein Platzhalter und einige Dateien für meinen persönlichen Gebrauch. Es gibt keine ToS.

Meine Fragen lauten: Hat McAffee das Recht, Inhalte von meiner Website herunterzuladen / zu crawlen? Kann ich ihnen das verbieten? Ich habe das Gefühl, dass es eine Art "Mein Schloss, meine Regeln" -Prinzip geben sollte, aber ich weiß im Grunde nichts über all die rechtlichen Dinge.

Update: Ich hätte wahrscheinlich erwähnen sollen, dass mein Server-Provider mir regelmäßig E-Mails mit den Ergebnissen von SiteAdvisor schickt - so habe ich von deren "Bewertung" erfahren, und deshalb ärgere ich mich.

web-crawler kralyk
quelle

78

Würden Sie sagen, dass Menschen das Recht haben, Ihre Website zu sehen? Wenn ja, warum die Roboterdiener der Menschen diskriminieren? Wenn nein, warum ist es überhaupt eine Website?

Jwodder

47

Wie haben Sie herausgefunden, dass SiteAdvisor Ihre Site markiert hat? Sie haben ihre Website nicht gesehen, oder? Wenn ja, was hat dir das Recht gegeben?

Joe Sniderman

17

Im Übrigen würde ich den SiteAdvisor-Bericht nicht so leichtfertig ablehnen, im Allgemeinen, wenn ich ähnliche Berichte sah, waren sie legitim. Der häufigste Fall ist, dass eine ältere / nicht gepatchte Version des beliebten CMS (WordPress, Joomla, Drupal, ...) von einem automatischen Skript ausgenutzt wird, um schädliche Inhalte ("Trampolin" -Seiten, die für Spam / Phishing verwendet werden, Hosting von Viren, die mit einem Link verbunden sind) zu platzieren Betrugs-E-Mails, Browser-Exploits (Sie nennen es); Sie können schlechte Sachen hosten, ohne es zu wissen. Da sich viele Benutzer auf solche Tools verlassen, möchten Sie in der Regel eine saubere Aufzeichnung haben, da solche Warnungen Benutzer abschrecken können.

Matteo Italia

35

Wenn Sie möchten, dass etwas gesperrt wird, sperren Sie es. Sie haben die Website eingerichtet und den Server so konfiguriert, dass er auf GET-Anforderungen reagiert. Sie haben alle eingeladen - buchstäblich alle. Dies ist kein "implizites" Recht, sondern die Funktionsweise von Webservern. Wie bereits erwähnt, gilt dies nicht für robots.txt, IP-Beschränkungen oder Inhalte, die nur für angemeldete Benutzer gelten.

Mfinni

20

@RolazaroAzeveires: Automatisierte Prozesse sind in Ordnung, nicht weil das Zulassen menschlicher Besucher dies impliziert, sondern weil sie, abgesehen von Angriffen, freundlich fragen: "Kann ich diese Dateien haben?" und Sie haben Ihren Webserver so konfiguriert, dass er antwortet: "Natürlich! Jetzt können Sie loslegen. Benötigen Sie noch etwas?" Das kriecht nicht ohne deine Erlaubnis, das kriecht mit deiner Erlaubnis.

Marcks Thomas

49

Hierfür gibt es einen gesetzlichen Präzedenzfall. Field v. Google Inc., 412 F. Supp. 2d 1106 (US Dist. Ct. Nevada 2006). Google gewann eine zusammenfassende Beurteilung, die auf mehreren Faktoren beruhte, insbesondere darauf, dass der Autor keine robots.txt-Datei in den Metatags seiner Website verwendete, wodurch Google daran gehindert worden wäre, Seiten zu crawlen und zwischenzuspeichern, die der Websitebesitzer nicht indizieren wollte.

Entscheidung pdf

Es gibt KEIN US-Gesetz, das sich speziell mit robots.txt-Dateien befasst. Ein anderes Gerichtsverfahren hat jedoch Präzedenzfälle geschaffen, die dazu führen könnten, dass robots.txt-Dateien als Umgehung vorsätzlicher elektronischer Maßnahmen zum Schutz von Inhalten angesehen werden. Bei HEALTHCARE ADVOCATES, INC. Gegen HARDING, EARLEY, FOLLMER & FRAILEY, et. al. argumentierten Healthcare Advocates, dass Harding et al. im Wesentlichen die Funktionen der Wayback-Maschine gehackt hätten, um Zugriff auf zwischengespeicherte Dateien von Seiten mit neueren Versionen mit robots.txt-Dateien zu erhalten. Während die Anwälte des Gesundheitswesens diesen Fall verloren haben, stellte das Bezirksgericht fest, dass das Problem nicht darin bestand, dass Harding et al. Das Schloss "öffneten", sondern dass sie aufgrund eines Server-Ladeproblems mit dem Wayback-Rechner, der den Zugriff auf das System gewährte, Zugriff auf die Dateien erhielten zwischengespeicherte Dateien, wenn es nicht sein sollte

Gerichtsurteil pdf

Es ist nur eine Frage der Zeit , bis jemand IMHO diese Entscheidung und stellt sich auf die Seite nimmt: Das Gericht darauf hingewiesen , dass robots.txt ist eine Sperre zu verhindern , Krabbeln und Umgehen es ist das Lockpicking.

Viele dieser Klagen sind leider nicht so einfach wie "Ich habe versucht, Ihrem Crawler mitzuteilen, dass dies nicht zulässig ist, und Ihr Crawler hat diese Einstellungen / Befehle ignoriert." In all diesen Fällen gibt es eine Vielzahl anderer Probleme, die letztendlich das Ergebnis mehr beeinflussen als die Kernfrage, ob eine robots.txt-Datei nach US-amerikanischem DCMA-Recht als elektronische Schutzmethode gelten soll oder nicht.

Abgesehen davon ist dies ein US-Gesetz und jemand aus China kann tun, was er will - nicht wegen der rechtlichen Probleme, sondern weil China den Schutz von US-Marken und Urheberrechten nicht durchsetzen wird.

Keine kurze Antwort, aber es gibt wirklich keine kurze, einfache Antwort auf Ihre Frage!

jcanker
quelle

1

Dies ist eine großartige Antwort, danke. Das, was ich an robots.txt nicht mag, ist, dass es kein tatsächlicher Standard ist (egal, welcher Standard gesetzlich vorgeschrieben ist). Diese Firmen können es einfach ignorieren. Ich mag es nicht, in der Position zu sein, in der sie mir sagen: "Sie sollten eine robots.txt-Datei erstellen und vielleicht werden wir Ihre Website nicht crawlen, aber vielleicht tun wir, was wir wollen." Es wäre großartig, wenn es in den Metadaten der Website einen Standard für die Angabe des ToS der Website geben würde.

Kralyk

5

@jcanker In diesen beiden Fällen geht es um Ansprüche wegen Urheberrechtsverletzung. Im Verhalten von Crawlern, die Inhalte cachen, wie sie von Google und archive.org betrieben werden, ist es durchaus sinnvoll, dass Urheberrechtsprobleme ins Spiel kommen. Aber McAfee SiteAdvisor kopiert und speichert nicht wirklich Inhalte von Websites, auf die es zugreift (und macht sie erst recht nicht öffentlich verfügbar), oder? Obwohl ich kein Anwalt bin, gibt diese Unterscheidung Anlass zu starken Zweifeln, dass jeder Fall in irgendeiner Weise auf das Verhalten eines Systems wie SiteAdvisor anwendbar ist, unabhängig davon, ob es robots.txt respektiert oder nicht.

Eliah Kagan

12

@kralyk - re "Diese Firmen können es einfach ignorieren." Nun ja. So funktioniert das Internet. Und selbst wenn es irgendwie grundlegender wäre, wäre es für einen Crawler trivial, absolut trivial, so zu tun, als wäre es ein Mensch, der auf Ihre Webseiten zugreift. Sie fragen nach dem technisch Unmöglichen . Wenn Sie überlegen, wonach Sie fragen, ist das, was Sie suchen, in der Tat nicht logisch, sondern ohne Bedeutung. Ausgenommen in einer rechtlichen Unterscheidung. Ihr einziger möglicher Schutz besteht darin, (1) wichtige Inhalte hinter der Benutzeranmeldungsauthentifizierung zu verbergen und (2) rechtlichen Schutz, wie in dieser Antwort erläutert.

ToolmakerSteve

@ToolmakerSteve Ich weiß, dass es technisch unmöglich ist, Roboter vollständig zu verbieten. Dies ist jedoch eine andere Situation. Ich suche keine technische Lösung und frage, ob diese legal ist. Beachten Sie auch, dass McAffee mich darüber informiert hat, dass meine Website gecrawlt wird. Ich muss sie nicht erkennen.

Kralyk

Es gibt auch einen Präzedenzfall in die andere Richtung: Ebay gegen Bieterkante

John

91

Ja, sie haben das Recht dazu. Sie haben eine öffentliche Website erstellt. Warum glauben Sie, dass dies nicht der Fall ist?

Natürlich haben auch Sie das Recht, sie zu stoppen. Sie können sie bitten, Ihre Website nicht mit robots.txt zu crawlen oder sie aktiv daran zu hindern, mit so etwas wie fail2ban darauf zuzugreifen .

Alternativ machen Sie sich keine Sorgen und fahren Sie mit Ihrem Leben fort. Es schadet nichts und ist definitiv auf der positiven Seite des Internet-Testens.

Dan
quelle

4

> "Ja, sie haben das Recht dazu - Sie haben eine öffentliche Website erstellt. Warum glauben Sie, dass dies nicht der Fall ist?" Nun, wenn etwas technisch möglich ist, heißt das nicht unbedingt, dass es legal ist. Zum Beispiel verbietet der ToS von YouTube das Herunterladen von Videos, so dass dies, obwohl es technisch sehr einfach ist, immer noch nicht erlaubt ist. Ich würde mir keine Sorgen um SiteAdvisor machen, wenn nicht mein Anbieter mir E-Mails über meine Website "Vielleicht Probleme"

schicken würde

16

@kralyk - Wenn Sie nicht möchten, dass die Öffentlichkeit (einschließlich McAfee) es sich ansieht, stellen Sie es nicht ins Internet. So einfach ist das. SIE STEUERN IHRE WEBSITE. Niemand zwingt Sie, es dort heraus zu setzen, und wenn Sie nicht möchten, dass die Leute es ansehen, dann setzen Sie es NICHT dort heraus. Wenn Sie es herausbringen wollen, dann wundern Sie sich nicht, dass Leute (einschließlich Leute, die Ihnen Sachen verkaufen wollen) es ansehen. Hör auf zu versuchen, deine Wünsche in das Problem eines anderen zu verwandeln.

Michael Kohne

9

@kralyk: im ernst? Denken Sie wirklich, dass das Problem hier eine Doppelmoral ist? Niemand bei McAfee kennt Ihre Website und kümmert sich auch nicht darum. Sie sollten es auch nicht. Es wäre absurd zu erwarten, dass jeder, der das Web durchsucht, die ToS aller liest. Deshalb wurde robot.txt erfunden.

ToolmakerSteve

3

@kralyk Der Zugriff auf die fraglichen Ressourcen muss gesperrt werden, damit der ToS annähernd aussagekräftig ist. Ein Roboter, der Ihre ungeschützten Seiten durchsucht, unterscheidet sich grundlegend von jemandem, der ein Konto registriert, einen ToS bestätigt und dann die Anmeldeinformationen an einen Roboter weiterleitet.

Andrew B

4

@kralyk - Was für eine Art von TOS haben Sie auf Ihrer Website haben , dass Sie das Gefühl , McAfee verletzt (Achtung nicht)?

Kevin Fegan

11

Ob dieses Verhalten ethisch ist oder nicht, ist nicht eindeutig geklärt.

Das Crawlen einer öffentlichen Site ist an sich nicht unethisch (es sei denn, Sie haben die Verwendung einer robots.txt oder anderer technischer Maßnahmen ausdrücklich untersagt und sie umgehen sie).

Was sie tun, ist das grobe Äquivalent eines Kaltrufs, während sie der Welt mitteilen, dass Sie möglicherweise nicht sicher sind. Wenn dies Ihrem Ruf schadet und ungerechtfertigt ist, ist es unethisch. Wenn Sie das tun und die einzige Lösung dafür darin besteht, dass Sie sie bezahlen, ist das ein Hetzer. Aber ich glaube nicht, dass das so ist.

Ein anderes Mal wird dies unethisch, wenn jemand Ihre Website durchsucht, um sich Ihren Inhalten oder Daten anzupassen, und diese dann als eigene darstellt. Aber auch das ist nicht das, was los ist.

Daher schlage ich vor, dass ihr Verhalten in diesem Fall ethisch ist, und Sie können es höchstwahrscheinlich auch ignorieren.

Das damit verbundene Spam-Verhalten ist unethisch, wenn Sie keine Beziehung zu ihnen haben und die E-Mails nicht angefordert haben, aber ich vermute, dass sie ein funktionierendes Abmelden haben.

Falcon Momot
quelle

1

Ich bin mir nicht sicher, ob ich eine DisallowAnweisung in einer robots.txt-Datei als "verbotene technologische Maßnahme" bezeichnen würde. robots.txt dient als Höflichkeitsanfrage, und während gut erzogene Bots sich daran halten, gibt es keine Verpflichtung und keine wirkliche Sicherheit. In der Tat könnten schlecht benommene Bots einen Eintrag in robots.txt als Aufforderung zum Crawlen dieses bestimmten Pfades nehmen ...

ein Lebenslauf vom

2

@ MichaelKjörling, nur die Hälfte stimmt zu. Es gibt keine wirkliche Sicherheit, aber es gibt eine Verpflichtung. Es ist ein Hinweisschild, und Sie sind verpflichtet, draußen zu bleiben, da Sie keine Erlaubnis zum Betreten haben.

Ben

Es ist ein Schild "draußen bleiben", ohne Schloss. Probieren Sie das bei sich zu Hause aus und sehen Sie, wie viel Sympathie Sie haben, nachdem die Diebe angerufen haben! (Tatsächlich handelt es sich um ein "

Draußen

2

Technischer Ansatz, um bestimmten Personen oder Unternehmen den Zugriff auf Ihre Website zu verwehren:

Sie können den Zugriff auf die Seiten Ihrer Site für bestimmte IP-Adressen oder Adressbereiche sperren. Dies ist eine .htaccess-Datei (wenn Ihre Site auf Apache Web Server ausgeführt wird).

http://www.htaccess-guide.com/deny-visitors-by-ip-address/

Lassen Sie Ihren Webserver IP-Adressen protokollieren, von denen aus auf ihn zugegriffen wird, und suchen Sie nach diesen IP-Adressen, um die mit McAfee verknüpften Adressen zu finden. Wahrscheinlich jetzt leicht zu sagen, wenn Sie keine regelmäßigen Besucher haben.

Natürlich können sie in Zukunft die IP-Adressen ändern. Wenn Sie jedoch die gefundenen IP-Adressen nachschlagen, um festzustellen, wem diese gehören, können Sie möglicherweise mehr über einen ganzen Adressblock von McAfee erfahren und alle blockieren.

Für eine Rechtsgrundlage dafür:

"Websitebesitzer können einige Nutzer legal sperren, Gerichtsbestimmungen"

http://www.computerworld.com/s/article/9241730/Website_owners_can_legally_block_some_users_court_rules

(Wenn es sich bei Ihrer Website um eine persönliche Website handelt, würde niemand Ihr Recht anfechten, einige Benutzer zu sperren. Wenn es sich jedoch um eine Website für ein Unternehmen handelt, gibt es auf beiden Seiten rechtliche und moralische Argumente. Je kleiner Ihr Unternehmen, desto einfacher es ist rechtlich zu schützen - und umso weniger würde es jedem anderen etwas ausmachen, sich zu beschweren.)

Sie könnten auch interessiert sein an "Besucher per Referrer verweigern".

"Wenn Sie jemals in Ihren Protokollen nachgesehen haben und eine überraschende Zunahme des Datenverkehrs festgestellt haben, aber keine Zunahme der tatsächlichen Dateianforderungen festgestellt wurde, ist dies wahrscheinlich eine Person, die Inhalte (z. B. CSS-Dateien) klaut oder versucht, Ihre Website zu hacken (dies kann einfach ein Versuch sein) nicht öffentlichen Inhalt zu finden). "

http://www.htaccess-guide.com/deny-visitors-by-referrer/

ToolmakerSteve
quelle

Hat ein Unternehmen das Recht impliziert, meine Website zu crawlen?

Antworten: