Wie erhalte ich die Zeichenanzahl von Wörtern in einer bestimmten Spalte?

12

Ich habe eine CSV-Datei wie diese:

abd,123,egypt,78
cde,456,england,45

Wie kann ich die Anzahl der Zeichen nur für die Wörter in der 3. Spalte ermitteln?

Ich kann nicht herausfinden, wie ich wcdazu komme.

shell columns csv wc user3116123
quelle

23

cut -d, -f3 | tr -d '\n' | wc -m

(Denken Sie daran, dass es sich um wc -cBytes handelt, nicht um Zeichen:

$ echo a,1,españa,2 | cut -d, -f3 | tr -d '\n' | wc -c
7
$ echo a,1,españa,2 | cut -d, -f3 | tr -d '\n' | wc -m
6

)

Stéphane Chazelas
quelle

Aber er gibt an: "Ich kann den wcBefehl nicht verwenden , um eine Ausgabe zu erhalten!"

mikeserv

3

@mikeserv, was ich interpretiere, da ich nicht in der Lage war wc, mir die Anzahl der Zeichen zu geben, weshalb ich zeige, wie man wcin diesem Kontext verwendet.

Stéphane Chazelas

Oh ... das ist eine sehr gültige Interpretation, die mir nie in den

Sinn gekommen ist

22

awk -F, '{sum+=length($3)}; END {print +sum}' file

Hauke Laging
quelle

3

Amen; awkwurde für die zeilenweise Verarbeitung von spaltenbasierten Dateien entwickelt. Das Problem ist für das Werkzeug perfekt geeignet.

Ray

Was ist der Zweck von + in {print + sum}? {Drucksumme} funktioniert genauso gut.

Spuder

3

@spuder, das soll 0anstelle einer leeren Zeile gedruckt werden, wenn die Eingabedatei leer ist.

Stéphane Chazelas

2

@Ray hingegen kann die Aufgabe gelöst werden, indem drei grundlegende Dienstprogramme (von denen jedes nur einen Bruchteil der Größe hat awk) im typischen Unix-Geist mit dem Fall zusammenarbeiten (und gleichzeitig arbeiten). Sie werden feststellen, dass der Befehl cut + tr + wc 5-mal so schnell ist wie der Befehl awk perl. (Zumindest auf meinem System, in einem UTF8-Gebietsschema, hat es mit einer 100-MB-Datei versucht).

Stéphane Chazelas

5

Eine perlLösung:

perl -Mopen=:locale -F, -anle '$sum += length($F[2]); END{print $sum}' file

oder eine kürzere Version:

perl -Mopen=:locale -F, -anle '$sum += length($F[2])}{print $sum' file

cuonglm
quelle

Beachten Sie, dass die Anzahl der Bytes zurückgegeben wird, nicht unbedingt die Anzahl der Zeichen.

Stéphane Chazelas

@StephaneChazelas: length () gibt die Anzahl der logischen Zeichen zurück, laut perldoc keine physischen Bytes.

Dienstag,

Aber Sie müssen -Mopen=:localefür perlden Benutzer / System-Definition von verwenden , was ein Zeichen ist, sonst nimmt sie Zeichen Bytes sind. Probieren Sie eine a,1,españa,2Eingabe in einem UTF-8-Gebietsschema aus (die Standardeinstellung auf den meisten Systemen).

Stéphane Chazelas

@StephaneChazelas: Oh, meine Antwort wurde aktualisiert. Danke für den guten Punkt!

Dienstag,

3

cut -d, -f3 <<\DATA | grep -o . | grep -c .
abd,123,egypt,78
cde,456,england,45
DATA

#OUTPUT
12

mikeserv
quelle

3

Sie könnten auch verwenden

awk -F, '{printf "%s", $3}' file | wc -m

terdon
quelle

3

In Perl:

perl -F, -Mopen=:locale -lane 'print length $F[2]' your_file

Joseph R.
quelle

1

Mit deiner Beispieldatei wie folgt:

$ cat sample.txt 
abd,123,egypt,78
cde,456,england,45

$ awk -F, '{print $3}' sample.txt | while read i; do echo "$i" | \
    tr -d '\n' | wc -m; done
5
7

Es wckann schwierig sein, mit zu arbeiten, um die Anzahl der Zeilen zu ermitteln. Sie müssen es für jeden String aus Spalte 3 einzeln aufrufen, was es etwas schwierig macht, das zu tun, was Sie wollen. Sie müssen jede Zeile Ihrer CSV-Datei durchsehen, Spalte 3 extrahieren und dann anzeigen wc, um die Anzahl der Zeichen zu ermitteln.

slm
quelle

0

Verwenden von sedundawk

sed 's/.*,.*,\(.*\),.*/\1/g' file | awk -v FS="" '{print NF;}'

Beispiel:

$ (echo abd,123,egypt,78; echo cde,456,england,45;) | sed 's/.*,.*,\(.*\),.*/\1/g' | awk -v FS="" '{print NF;}'
5
7

Zwei awks

awk -F, '{print $3}' file | awk -v FS="" '{print NF;}'

Beispiel:

$ (echo abd,123,egypt,78; echo cde,456,england,45;) | awk -F, '{print $3}'| awk -v FS="" '{print NF;}'
5
7

Avinash Raj
quelle

Wie erhalte ich die Zeichenanzahl von Wörtern in einer bestimmten Spalte?

Antworten: