Gültiger Inhaltstyp für XML-, HTML- und XHTML-Dokumente

123

Was sind die richtigen Inhaltstypen für XML-, HTML- und XHTML-Dokumente?

Ich muss einen einfachen Crawler schreiben, der nur diese Art von Dateien abruft.

Heutzutage kann http://example.net/index.html aufgrund von mod_rewrite beispielsweise eine JPEG-Datei bereitstellen. Daher muss ich den Inhaltstyp aus dem Antwortheader überprüfen und ihn mit einer Liste zulässiger Inhaltstypen vergleichen.

Woher bekomme ich eine solche Liste?

astropanisch
quelle
Über Fragmente siehe stackoverflow.com/q/19303361/287948 und w3.org/TR/xml-fragment
Peter Krauss

Antworten:

206

HTML : text/html, Punkt.

XHTML: application/xhtml+xmloder nur, wenn die Richtlinien zur HTML-Kompatibilität befolgt werden text/html. Siehe Hinweis zu W3- Medientypen .

XML : text/xml, application/xml( RFC 2376 ).

Es gibt auch viele andere Medientypen, die auf XML basieren, zum Beispiel application/rss+xmloder image/svg+xml. Es ist sicher, dass jede nicht erkannte, aber registrierte Endung auf +xmlXML basiert. In der IANA-Liste finden Sie registrierte Medientypen, die auf enden+xml .

(Bei nicht registrierten x-Typen sind alle Wetten ungültig, aber Sie würden hoffen, +xmldass sie respektiert werden.)

Bobince
quelle
32
Zu Unterschieden zwischen text/xmlund application/xmlsiehe hier stackoverflow.com/questions/4832357/…
sanmai
Gleiches gilt für Fragmente , siehe w3.org/TR/xml-fragment oder diese andere Frage .
Peter Krauss