Ich habe zwei Dateien, nennen wir sie 123.txt
und 789.txt
. 123.txt
ist 2,5 Millionen Zeilen lang und 65 Millionen 789.txt
Zeilen lang. Gibt es eine Möglichkeit, grep
Zeilen 789.txt
, die Zeilen enthalten , zu verwenden oder ähnliches zu verwenden?123.txt?
Es wird maximal ein Duplikat pro Zeile geben 789.txt
, und der doppelte Text befindet sich am Anfang der Zeile. Ich bin total festgefahren und konnte online keine Informationen finden, also habe ich eigentlich nichts zu Beginn. Es wird auf einem Server ausgeführt, daher macht es mir nichts aus, dass es eine Weile dauert (was ich weiß).
123.txt:
hxxp://www.a.com hxxp://www.b.com hxxp://www.c.com
789.txt:
hxxp://www.a.com/kgjdk-jgjg/ hxxp://www.b.com/gsjahk123/ hxxp://www.c.com/abc.txt hxxp://www.d.com/sahgsj/
Gewünschte Ausgabe:
hxxp://www.a.com/kgjdk-jgjg/ hxxp://www.b.com/gsjahk123/ hxxp://www.c.com/abc.txt
123.txt
, die nicht in sind789.txt
, sowie Zeilen789.txt
, die in erscheinen123.txt
(sie werden nur einmal gedruckt, aber trotzdem gedruckt).Wenn die Dateien wie in Ihrem Beispiel sortiert sind und immer diesem Muster folgen, können Sie es schreiben:
Das wäre am effizientesten.
quelle