Ich muss eine Site über HTTP rippen. Ich muss die Bilder, HTML, CSS und JavaScript herunterladen und in einem Dateisystem organisieren.
Weiß jemand, wie man das macht?
html
javascript
css
ripping
Damon
quelle
quelle
Antworten:
Dies läuft in der Konsole.
Dies greift nach einer Site, wartet 3 Sekunden zwischen den Anfragen, begrenzt die Geschwindigkeit des Downloads, damit die Site nicht zerstört wird, und maskiert sich so, dass es so aussieht, als wäre es nur ein Browser, damit die Site Sie nicht abschneidet mit einem Anti-Blutegel-Mechanismus.
Beachten Sie den
-A
Parameter, der eine Liste der Dateitypen angibt, die Sie herunterladen möchten.Sie können auch ein anderes Tag verwenden,
-D domain1.com,domain2.com
um eine Reihe von Domänen anzugeben, die Sie herunterladen möchten, wenn sie über einen anderen Server verfügen oder andere Arten von Dateien hosten. Es gibt keine sichere Möglichkeit, dies für alle Fälle zu automatisieren, wenn Sie die Dateien nicht erhalten.wget
ist in der Regel unter Linux vorinstalliert, kann jedoch problemlos für andere Unix-Systeme kompiliert oder für Windows heruntergeladen werden: GNUwin32 WGETVerwenden Sie dies zum Guten und nicht zum Bösen.
quelle
Gute, kostenlose Lösung: HTTrack
quelle
Auf Linux-Systemen erledigt 'wget' dies ziemlich genau.
Es wurde auch auf mehrere andere Plattformen portiert, wie in einigen anderen Antworten erwähnt.
quelle
Offensichtlich wurde WGet einige Male erwähnt. Die beste Benutzeroberfläche, die ich dafür gefunden habe, ist
Es gibt noch einige andere UIs für WGet, von denen einige Kandidaten für die schlimmste UI- Frage sind
quelle
Schauen Sie sich die Scrapbook-Erweiterung für Firefox an. Dabei leistet es erstaunliche Arbeit und lässt sich auch in Firebug integrieren. Sie können Elemente aus dem DOM löschen, bevor Sie speichern, wenn Sie möchten.
quelle
Sie müssen wget verwenden, das für die meisten Plattformen verfügbar ist. curl fordert Dokumente nicht rekursiv an, was eine der Hauptstärken von wget ist.
Linux: (normalerweise in der Distribution enthalten) http://www.gnu.org/software/wget/
Windows: http://gnuwin32.sourceforge.net/packages/wget.htm
Mac: http: //www.geekology. co.za/blog/2009/02/macports-compile-and-install-open-source-software-on-mac-os-x/
BITTE stellen Sie sicher, dass Sie nicht auf die Website einhämmern - richten Sie geeignete Verzögerungen zwischen Anfragen ein und stellen Sie sicher, dass diese innerhalb der Nutzungsbedingungen der Website liegen.
-Adam
quelle
Als ich meinen Kommentar in GWLlosas Post verfolgte, fiel mir ein, dass ich GnuWin32 installiert habe und dass es einen Windows-Port von wget enthält.
http://sourceforge.net/projects/gnuwin32/
quelle
Ich habe es vor einigen Jahren benutzt und es hat gut funktioniert. Nur für Windows. Früher war es Adware, aber anscheinend nicht mehr:
http://www.webreaper.net/
quelle
wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com
quelle
-c
(oder--continue
) Option hinzu, wenn etwas schief geht und ich den Prozess neu starten muss.Ich denke, IDM Site Grabber ist die beste Lösung, es gibt auch Teleport Pro
quelle
Der Free Download Manager kann auch komplette Websites herunterladen.
Windows denke ich nur.
quelle