Ich extrahiere URLs von einer Website mit cURL (siehe unten).
curl www.somesite.com | grep "<a href=.*title=" > new.txt
Meine new.txt-Datei ist wie folgt.
<a href="http://website1.com" title="something">
<a href="http://website1.com" information="something" title="something">
<a href="http://website2.com" title="some_other_thing">
<a href="http://website2.com" information="something" title="something">
<a href="http://websitenotneeded.com" title="something NOTNEEDED">
Ich muss jedoch nur die folgenden Informationen extrahieren.
<a href="http://website1.com" title="something">
<a href="http://website2.com" information="something" title="something">
Ich versuche die zu ignorieren <a href
, die Informationen enthalten und deren Titel mit NOTNEEDED endet .
Wie kann ich meine grep-Anweisung ändern?
curl www.somesite.com | grep "<a href=.*title=" | grep -v NOTNEEDED > new.txt
?Antworten:
Ich folge Ihrem Beispiel + der Beschreibung nicht vollständig, aber es hört sich so an, als ob Sie folgendes wollen:
Also für dein Beispiel:
quelle
Die grep- Manpage sagt:
Sie können reguläre Ausdrücke für mehrere Inversionen verwenden:
oder
quelle