Was sind die richtigen Inhaltstypen für XML-, HTML- und XHTML-Dokumente?
Ich muss einen einfachen Crawler schreiben, der nur diese Art von Dateien abruft.
Heutzutage kann http://example.net/index.html aufgrund von mod_rewrite beispielsweise eine JPEG-Datei bereitstellen. Daher muss ich den Inhaltstyp aus dem Antwortheader überprüfen und ihn mit einer Liste zulässiger Inhaltstypen vergleichen.
Woher bekomme ich eine solche Liste?
Antworten:
HTML :
text/html
, Punkt.XHTML:
application/xhtml+xml
oder nur, wenn die Richtlinien zur HTML-Kompatibilität befolgt werdentext/html
. Siehe Hinweis zu W3- Medientypen .XML :
text/xml
,application/xml
( RFC 2376 ).Es gibt auch viele andere Medientypen, die auf XML basieren, zum Beispiel
application/rss+xml
oderimage/svg+xml
. Es ist sicher, dass jede nicht erkannte, aber registrierte Endung auf+xml
XML basiert. In der IANA-Liste finden Sie registrierte Medientypen, die auf enden+xml
.(Bei nicht registrierten
x-
Typen sind alle Wetten ungültig, aber Sie würden hoffen,+xml
dass sie respektiert werden.)quelle
text/xml
undapplication/xml
siehe hier stackoverflow.com/questions/4832357/…