Ich versuche also, ein Python-Skript zu erstellen, das Webcomics herunterlädt und in einem Ordner auf meinem Desktop ablegt. Ich habe hier ein paar ähnliche Programme gefunden, die etwas Ähnliches tun, aber nichts Vergleichbares zu dem, was ich brauche. Die ähnlichste fand ich hier ( http://bytes.com/topic/python/answers/850927-problem-using-urllib-download-images ). Ich habe versucht, diesen Code zu verwenden:
>>> import urllib
>>> image = urllib.URLopener()
>>> image.retrieve("http://www.gunnerkrigg.com//comics/00000001.jpg","00000001.jpg")
('00000001.jpg', <httplib.HTTPMessage instance at 0x1457a80>)
Ich habe dann meinen Computer nach einer Datei "00000001.jpg" durchsucht, aber alles, was ich gefunden habe, war das zwischengespeicherte Bild davon. Ich bin mir nicht einmal sicher, ob die Datei auf meinem Computer gespeichert wurde. Sobald ich verstanden habe, wie die Datei heruntergeladen wird, weiß ich, wie ich mit dem Rest umgehen soll. Verwenden Sie im Wesentlichen einfach eine for-Schleife und teilen Sie die Zeichenfolge bei '00000000'. 'Jpg' und erhöhen Sie die '00000000' auf die größte Zahl, die ich irgendwie bestimmen müsste. Irgendwelche Empfehlungen, wie man das am besten macht oder wie man die Datei richtig herunterlädt?
Vielen Dank!
EDIT 15.06.10
Hier ist das fertige Skript, es speichert die Dateien in einem beliebigen Verzeichnis, das Sie auswählen. Aus irgendeinem Grund wurden die Dateien nicht heruntergeladen und sie haben es einfach getan. Vorschläge zur Bereinigung sind sehr willkommen. Ich arbeite derzeit daran, herauszufinden, wie viele Comics auf der Website vorhanden sind, damit ich nur die neuesten erhalten kann, anstatt das Programm nach einer bestimmten Anzahl von Ausnahmen beenden zu lassen.
import urllib
import os
comicCounter=len(os.listdir('/file'))+1 # reads the number of files in the folder to start downloading at the next comic
errorCount=0
def download_comic(url,comicName):
"""
download a comic in the form of
url = http://www.example.com
comicName = '00000000.jpg'
"""
image=urllib.URLopener()
image.retrieve(url,comicName) # download comicName at URL
while comicCounter <= 1000: # not the most elegant solution
os.chdir('/file') # set where files download to
try:
if comicCounter < 10: # needed to break into 10^n segments because comic names are a set of zeros followed by a number
comicNumber=str('0000000'+str(comicCounter)) # string containing the eight digit comic number
comicName=str(comicNumber+".jpg") # string containing the file name
url=str("http://www.gunnerkrigg.com//comics/"+comicName) # creates the URL for the comic
comicCounter+=1 # increments the comic counter to go to the next comic, must be before the download in case the download raises an exception
download_comic(url,comicName) # uses the function defined above to download the comic
print url
if 10 <= comicCounter < 100:
comicNumber=str('000000'+str(comicCounter))
comicName=str(comicNumber+".jpg")
url=str("http://www.gunnerkrigg.com//comics/"+comicName)
comicCounter+=1
download_comic(url,comicName)
print url
if 100 <= comicCounter < 1000:
comicNumber=str('00000'+str(comicCounter))
comicName=str(comicNumber+".jpg")
url=str("http://www.gunnerkrigg.com//comics/"+comicName)
comicCounter+=1
download_comic(url,comicName)
print url
else: # quit the program if any number outside this range shows up
quit
except IOError: # urllib raises an IOError for a 404 error, when the comic doesn't exist
errorCount+=1 # add one to the error count
if errorCount>3: # if more than three errors occur during downloading, quit the program
break
else:
print str("comic"+ ' ' + str(comicCounter) + ' ' + "does not exist") # otherwise say that the certain comic number doesn't exist
print "all comics are up to date" # prints if all comics are downloaded
beautifulsoup
? Dieser Beitrag erscheint in der Liste der Top-beautifulsoup
FragenAntworten:
Python 2
Verwenden von urllib.urlretrieve
Python 3
Die Verwendung von urllib.request.urlretrieve (Teil der Legacy-Oberfläche von Python 3 funktioniert genauso)
quelle
import urllib.request urllib.request.retrieve("http://...")
import urllib.request urllib.request.urlretrieve("http://...jpg", "1.jpg")
. Es isturlretrieve
jetzt ab 3.x.quelle
Nur für den Datensatz, mit Anforderungsbibliothek.
Es sollte jedoch nach dem Fehler request.get () suchen.
quelle
Für Python 3 müssen Sie Folgendes importieren
import urllib.request
:Weitere Informationen finden Sie unter dem Link
quelle
Python 3-Version von @ DiGMis Antwort:
quelle
Ich habe diese Antwort gefunden und bearbeite sie zuverlässiger
Hieraus erhalten Sie beim Herunterladen keine anderen Ressourcen oder Ausnahmen.
quelle
Wenn Sie wissen, dass sich die Dateien im selben Verzeichnis
dir
der Website befindensite
und das folgende Format haben: Dateiname_01.jpg, ..., Dateiname_10.jpg, laden Sie alle herunter:quelle
Es ist am einfachsten, nur
.read()
die teilweise oder vollständige Antwort zu lesen und sie dann in eine Datei zu schreiben, die Sie an einem bekanntermaßen guten Ort geöffnet haben.quelle
Vielleicht brauchen Sie 'User-Agent':
quelle
Abgesehen davon, dass Sie die Dokumente
retrieve()
sorgfältig lesen ( http://docs.python.org/library/urllib.html#urllib.URLopener.retrieve ), würde ich vorschlagen,read()
den Inhalt der Antwort tatsächlich aufzurufen und dann in zu speichern Eine Datei Ihrer Wahl, anstatt sie in der temporären Datei zu belassen, die beim Abrufen erstellt wird.quelle
Bei allen oben genannten Codes kann der ursprüngliche Bildname nicht beibehalten werden, was manchmal erforderlich ist. Dies hilft beim Speichern der Images auf Ihrem lokalen Laufwerk, wobei der ursprüngliche Image-Name beibehalten wird
Versuchen Sie dies für weitere Details.
quelle
Dies funktionierte bei mir mit Python 3.
Es ruft eine Liste der URLs aus der CSV-Datei ab und lädt sie in einen Ordner herunter. Falls der Inhalt oder das Bild nicht existiert, nimmt es diese Ausnahme und macht weiter seine Magie.
quelle
Eine einfachere Lösung kann sein (Python 3):
quelle
Was ist damit:
quelle
Wenn Sie Proxy-Unterstützung benötigen, können Sie dies tun:
quelle
Eine andere Möglichkeit, dies zu tun, ist über die Fastai-Bibliothek. Das hat für mich wie ein Zauber gewirkt. Ich stand vor einer
SSL: CERTIFICATE_VERIFY_FAILED Error
Verwendung,urlretrieve
also habe ich das versucht.quelle
Anfragen verwenden
quelle
Mit urllib können Sie dies sofort erledigen.
quelle