Eindeutige Zeilen drucken

13

Gibt es eine bessere Lösung für das Drucken eindeutiger Zeilen als eine Kombination aus sortund uniq?

Lass mich sein
quelle
1
Was meinst du mit "besser"?
gabe.
@gabe Zum Beispiel muss nicht die gesamte Datei gespeichert werden.
Let_Me_Be

Antworten:

22

So drucken Sie für jede identische Zeile nur eine Zeile in beliebiger Reihenfolge:

sort -u

So drucken Sie nur die eindeutigen Zeilen in beliebiger Reihenfolge:

sort | uniq -u

So drucken Sie jede identische Zeile nur einmal in der Reihenfolge ihres ersten Auftretens: (Drucken Sie für jede Zeile die Zeile, wenn sie noch nicht gesehen wurde, und erhöhen Sie in jedem Fall den Zähler für gesehene Zeilen.)

awk '!seen[$0] {print}
     {++seen[$0]}'

So drucken Sie nur die eindeutigen Zeilen in der Reihenfolge ihres ersten Auftretens: (Zeichnen Sie jede Zeile in seenund auch in der Reihenfolge ihres ersten Auftretens auf lines; drucken Sie am Ende der Eingabe die Zeilen in der Reihenfolge ihres Auftretens, jedoch nur die angezeigten Zeilen Einmal)

awk '!seen[$0]++ {lines[i++]=$0}
     END {for (i in lines) if (seen[lines[i]]==1) print lines[i]}'
Gilles
quelle
8
wie wäre es awk '!seen[$0]++ {print}'?
Asoundmove
10
Oder noch kürzer awk '!seen[$0]++', da das {print}durch einen leeren Befehl impliziert wird.
Quazgar
2

Einige (die meisten?) Versionen von sorthaben ein -uFlag, das den uniqTeil direkt erledigt . Abhängig von der Implementierung kann es jedoch zu Einschränkungen der Zeilenlänge kommen, die Sie jedoch bereits mit plain hatten sort|uniq.

Matte
quelle
1
Äh? sort -ugeht zumindest auf V7 zurück.
Geekosaurier
Hum ... Ich dachte, ich erinnere mich, dass Solaris oder AIX das nicht hatten. Ich liege jedoch falsch, beide haben es.
Mat
Solaris und AIX haben -ujedoch auch eine Zeilenlängenbeschränkung von 512 Zeichen. (Eigentlich glaube ich, dass Solaris 9 Sun es auf 5120 erhöht hat. GNU gewinnt jedoch immer noch.)
Geekosaurier
@geekosaur: bist du sicher? Die Arbeit, die zur Aufhebung der 512-Byte-Beschränkung der sortierten Zeilenlänge geleistet wurde, wurde von JP Linderman, Bell System Technical, in "Theorie und Praxis bei der Konstruktion einer funktionierenden Sortierroutine" dokumentiert. Journal, 63, 1827 & ndash; 1843 (1984).
Jonathan Leffler
0

Funktioniert Perl für Sie? Es kann die Zeilen in der ursprünglichen Reihenfolge beibehalten, auch wenn die Duplikate nicht benachbart sind. Sie können es auch in Python codieren oder awk.

while (<>) {
    print if $lines{$_}++ == 0;
}

Welches kann nur gekürzt werden

perl -ne 'print unless $lines{$_}++;'

Gegebene Eingabedatei:

abc
def
abc
ghi
abc
def
abc
ghi
jkl

Es ergibt die Ausgabe:

abc
def
ghi
jkl
Jonathan Leffler
quelle
Wo werden $ lines definiert?
Gregg Leventhal
Ist es nicht. Da es kein use strict;oder gibt use warnings;(eigentlich ist es das strict, was hier am relevantesten ist), gibt es keine Beschwerde über die Verwendung, %linesbevor es definiert ist. Wenn mit Einschränkungen gearbeitet wird, muss my %lines;vor der Schleife eine Linie stehen . Beachten Sie auch, dass der Hash ist %lines; Ein Element des Hash wird mit der $lines{$_}Notation referenziert .
Jonathan Leffler
Ich denke, die sortLösungen sind möglicherweise besser für große Datenmengen (das OP war besorgt über das "Speichern der gesamten Datei im Speicher"). sortführt eine Out-of-Core-Sortierung durch, wenn die Daten größer als der verfügbare Speicher sind.
Kusalananda
0

Für den letzten Teil der Antwort unter: Drucken eindeutiger Zeilen durch @Gilles als Antwort auf diese Frage habe ich versucht, die Verwendung von zwei Hashes zu vermeiden.

Diese Lösung ist für folgende Zwecke vorgesehen: So drucken Sie nur die eindeutigen Zeilen in der Reihenfolge ihres ersten Auftretens:

awk '{counter[$0]++} END {for (line in counter) if (counter[line]==1) print line}'

Hier speichert "counter" eine Zählung jeder Zeile, die der zuvor verarbeiteten ähnlich ist.
Am Ende werden nur die Zeilen gedruckt, deren Zählerwert 1 ist.

Sarfraaz Ahmed
quelle