Wie konvertiere ich HTML in Text?

12

Wie ist es möglich, HTML unter Linux in eine Textdatei zu konvertieren? Zum Beispiel möchte ich curleine Abfrage an Google senden, dann die Ausgabe-HTML in Text konvertieren und konvertierten Text auf meinem Terminal lesen. Ich benutze RHEL6.

Rivu
quelle

Antworten:

11

Ich glaube nicht, dass Curl einen eingebauten HTML-Prozessor hat. Jedoch:

lynx --dump <URL>

macht den Trick.

Wenn Sie weiterhin Curl verwenden möchten, können Sie html2text(verfügbar in Ubuntu) verwenden.

Teun Vink
quelle
FYI lynx erwartet / dokumentiert ein einzelnes -als Optionspräfix. Obwohl es eine --gute Sache verarbeiten wird .
ocodo
6

Sie können installieren html2text(einen erweiterten HTML-zu-Text-Konverter) und die Verwendung ist unkompliziert:

$ html2text http://example.com/
$ cat file.html | html2text -o file.txt

Installation durch:

  • Linux: apt-get install html2text
  • OS X: brew install html2text

Beispiel mit curl:

$ curl -sL google.com | html2text
Search Images Maps Play YouTube News Gmail Drive More ?
Web History | Settings | Sign in
     A better way to browse the web
       Get Google Chrome

          Advanced search Language tools

        [Google Search][I'm Feeling Lucky]

     Advertising Programmes Business Solutions+GoogleAbout GoogleGoogle.com
                           ? 2016 - Privacy - Terms
Kenorb
quelle