Ich bin nach einigen einfachen Beispielen und Best Practices für die Verwendung von regulären Ausdrücken in ANSI C. Ich biete man regex.hnicht so viel Hilfe.
In ANSI C gibt es keine integrierte Unterstützung für Regex. Welche Regex-Bibliothek verwenden Sie?
Joe
7
Rob Pike hat eine kleine Suchfunktion für Zeichenfolgen mit regulären Ausdrücken geschrieben, die eine sehr nützliche Teilmenge regulärer Ausdrücke für das Buch The Practice of Programming akzeptiert, das er und Brian Kernighan gemeinsam verfasst haben. Siehe diese Diskussion, A Regular Expression Matcher, von Dr. Kernighan cs.princeton.edu/courses/archive/spr09/cos333/beautiful.html
Richard Chambers
Antworten:
232
Reguläre Ausdrücke sind eigentlich nicht Teil von ANSI C. Es hört sich so an, als würden Sie über die POSIX-Bibliothek für reguläre Ausdrücke sprechen, die mit den meisten (allen?) * Nixen geliefert wird. Hier ist ein Beispiel für die Verwendung von POSIX-Regexen in C (basierend darauf ):
#include<regex.h>regex_t regex;int reti;char msgbuf[100];/* Compile regular expression */
reti = regcomp(®ex,"^a[[:alnum:]]",0);if(reti){
fprintf(stderr,"Could not compile regex\n");
exit(1);}/* Execute regular expression */
reti = regexec(®ex,"abc",0, NULL,0);if(!reti){
puts("Match");}elseif(reti == REG_NOMATCH){
puts("No match");}else{
regerror(reti,®ex, msgbuf,sizeof(msgbuf));
fprintf(stderr,"Regex match failed: %s\n", msgbuf);
exit(1);}/* Free memory allocated to the pattern buffer by regcomp() */
regfree(®ex);
Alternativ können Sie auch PCRE ausprobieren , eine Bibliothek für Perl-kompatible reguläre Ausdrücke in C. Die Perl-Syntax entspricht weitgehend der in Java, Python und einer Reihe anderer Sprachen verwendeten Syntax. Die POSIX Syntax ist die Syntax von grep, sed, viusw.
Sofern Sie die Abhängigkeit von der zweiten PCRE nicht vermeiden müssen, hat sie einige nette Syntaxverbesserungen und ist sehr stabil. Zumindest bei einigen älteren Linux-Versionen ist es nicht allzu schwierig, die "eingebaute" Bibliothek für reguläre Ausdrücke zum Absturz zu bringen, wenn bestimmte Eingabezeichenfolgen und bestimmte reguläre Ausdrücke "fast" mit vielen Sonderzeichen übereinstimmen oder diese enthalten
bdk
@Laurence Was bedeutet es, 0 an regcomp zu übergeben? regcomp verwendet nur vier ganzzahlige Werte 1, 2, 4 und 8, um 4 verschiedene Modi darzustellen.
Lixiang
2
@lixiang Der letzte Parameter regcomp, cflagsist eine Bitmaske. Von pubs.opengroup.org/onlinepubs/009695399/functions/regcomp.html : "Das Argument cflags ist das bitweise inklusive ODER von null oder mehr der folgenden Flags ...". Wenn Sie zusammen Null machen, erhalten Sie 0. Ich sehe, dass die Linux-Manpage für regcomp"cflags kann das bitweise oder eines oder mehrere der folgenden sein" sagt, was irreführend erscheint.
Laurence Gonsalves
2
Sie können Text aus übereinstimmenden Gruppen mit folgenden Elementen extrahieren: regmatch_t matches[MAX_MATCHES]; if (regexec(&exp, sz, MAX_MATCHES, matches, 0) == 0) { memcpy(buff, sz + matches[1].rm_so, matches[1].rm_eo - matches[1].rm_so); printf("group1: %s\n", buff); }Beachten Sie, dass Gruppenübereinstimmungen bei 1 beginnen, Gruppe 0 die gesamte Zeichenfolge ist. Fügen Sie Fehlerprüfungen für außerhalb der Grenzen usw. hinzu
BurnsBA
2
In Bezug darauf, ob regfreedies nach einem Fehlschlag erforderlich ist regcomp, obwohl dies tatsächlich eher unterbestimmt ist
Daniel Jour
12
Es ist wahrscheinlich nicht das, was Sie wollen, aber ein Tool wie re2c kann reguläre POSIX (-ish) -Ausdrücke zu ANSI C kompilieren. Es wurde als Ersatz für geschrieben lex, aber dieser Ansatz ermöglicht es Ihnen, Flexibilität und Lesbarkeit für das letzte bisschen Geschwindigkeit zu opfern, wenn du brauchst es wirklich.
man regex.hBerichten zufolge gibt es keinen manuellen Eintrag für regex.h, aber man 3 regex Sie erhalten eine Seite, auf der die POSIX-Funktionen für den Mustervergleich erläutert werden.
Dieselben Funktionen werden in The GNU C Library: Regular Expression Matching beschriebenDieselben , in dem erklärt wird, dass die GNU C Library sowohl die POSIX.2-Schnittstelle als auch die Schnittstelle unterstützt, über die die GNU C Library seit vielen Jahren verfügt.
Für ein hypothetisches Programm, das druckt, welche der als Argument übergebenen Zeichenfolgen mit dem als erstes Argument übergebenen Muster übereinstimmen, können Sie beispielsweise Code verwenden, der dem folgenden ähnlich ist.
#include<errno.h>#include<regex.h>#include<stdio.h>#include<stdlib.h>#include<string.h>void print_regerror (int errcode,size_t length,regex_t*compiled);int
main (int argc,char*argv[]){regex_t regex;int result;if(argc <3){// The number of passed arguments is lower than the number of// expected arguments.
fputs ("Missing command line arguments\n", stderr);return EXIT_FAILURE;}
result = regcomp (®ex, argv[1], REG_EXTENDED);if(result){// Any value different from 0 means it was not possible to // compile the regular expression, either for memory problems// or problems with the regular expression syntax.if(result == REG_ESPACE)
fprintf (stderr,"%s\n", strerror(ENOMEM));else
fputs ("Syntax error in the regular expression passed as first argument\n", stderr);return EXIT_FAILURE;}for(int i =2; i < argc; i++){
result = regexec (®ex, argv[i],0, NULL,0);if(!result){
printf ("'%s' matches the regular expression\n", argv[i]);}elseif(result == REG_NOMATCH){
printf ("'%s' doesn't the regular expression\n", argv[i]);}else{// The function returned an error; print the string // describing it.// Get the size of the buffer required for the error message.size_t length = regerror (result,®ex, NULL,0);
print_regerror (result, length,®ex);return EXIT_FAILURE;}}/* Free the memory allocated from regcomp(). */
regfree (®ex);return EXIT_SUCCESS;}void
print_regerror (int errcode,size_t length,regex_t*compiled){char buffer[length];(void) regerror (errcode, compiled, buffer, length);
fprintf(stderr,"Regex match failed: %s\n", buffer);}
Das letzte Argument von regcomp()muss mindestens sein REG_EXTENDED, sonst verwenden die Funktionen grundlegende reguläre Ausdrücke , was bedeutet, dass Sie (zum Beispiel) a\{3\}anstelle a{3}von erweiterten regulären Ausdrücken verwenden müssten , was wahrscheinlich das ist, was Sie erwarten.
POSIX.2 hat auch eine andere Funktion für den Platzhalterabgleich : fnmatch(). Es ist nicht möglich, den regulären Ausdruck zu kompilieren oder die Teilzeichenfolgen abzurufen, die mit einem Unterausdruck übereinstimmen. Es ist jedoch sehr spezifisch, um zu überprüfen, ob ein Dateiname mit einem Platzhalter übereinstimmt (z. B. wird das FNM_PATHNAMEFlag verwendet).
Obwohl die obige Antwort gut ist, empfehle ich die Verwendung von PCRE2 . Dies bedeutet, dass Sie jetzt buchstäblich alle Regex-Beispiele verwenden können und nicht aus einem alten Regex übersetzen müssen.
Ich habe bereits eine Antwort darauf gegeben, aber ich denke, dass es auch hier helfen kann.
// YOU MUST SPECIFY THE UNIT WIDTH BEFORE THE INCLUDE OF THE pcre.h#define PCRE2_CODE_UNIT_WIDTH 8#include<stdio.h>#include<string.h>#include<pcre2.h>#include<stdbool.h>int main(){boolDebug=true;boolFound=false;
pcre2_code *re;
PCRE2_SPTR pattern;
PCRE2_SPTR subject;int errornumber;int i;int rc;
PCRE2_SIZE erroroffset;
PCRE2_SIZE *ovector;size_t subject_length;
pcre2_match_data *match_data;char*RegexStr="(?:\\D|^)(5[1-5][0-9]{2}(?:\\ |\\-|)[0-9]{4}(?:\\ |\\-|)[0-9]{4}(?:\\ |\\-|)[0-9]{4})(?:\\D|$)";char* source ="5111 2222 3333 4444";
pattern =(PCRE2_SPTR)RegexStr;// <<<<< This is where you pass your REGEX
subject =(PCRE2_SPTR)source;// <<<<< This is where you pass your bufer that will be checked.
subject_length = strlen((char*)subject);
re = pcre2_compile(
pattern,/* the pattern */
PCRE2_ZERO_TERMINATED,/* indicates pattern is zero-terminated */0,/* default options */&errornumber,/* for error number */&erroroffset,/* for error offset */
NULL);/* use default compile context *//* Compilation failed: print the error message and exit. */if(re == NULL){
PCRE2_UCHAR buffer[256];
pcre2_get_error_message(errornumber, buffer,sizeof(buffer));
printf("PCRE2 compilation failed at offset %d: %s\n",(int)erroroffset,buffer);return1;}
match_data = pcre2_match_data_create_from_pattern(re, NULL);
rc = pcre2_match(
re,
subject,/* the subject string */
subject_length,/* the length of the subject */0,/* start at offset 0 in the subject */0,/* default options */
match_data,/* block for storing the result */
NULL);if(rc <0){switch(rc){case PCRE2_ERROR_NOMATCH://printf("No match\n"); //
pcre2_match_data_free(match_data);
pcre2_code_free(re);Found=0;returnFound;// break;/*
Handle other special cases if you like
*/default: printf("Matching error %d\n", rc);//break;}
pcre2_match_data_free(match_data);/* Release memory used for the match */
pcre2_code_free(re);Found=0;/* data and the compiled pattern. */returnFound;}if(Debug){
ovector = pcre2_get_ovector_pointer(match_data);
printf("Match succeeded at offset %d\n",(int)ovector[0]);if(rc ==0)
printf("ovector was not big enough for all the captured substrings\n");if(ovector[0]> ovector[1]){
printf("\\K was used in an assertion to set the match start after its end.\n""From end to start the match was: %.*s\n",(int)(ovector[0]- ovector[1]),(char*)(subject + ovector[1]));
printf("Run abandoned\n");
pcre2_match_data_free(match_data);
pcre2_code_free(re);return0;}for(i =0; i < rc; i++){
PCRE2_SPTR substring_start = subject + ovector[2*i];size_t substring_length = ovector[2*i+1]- ovector[2*i];
printf("%2d: %.*s\n", i,(int)substring_length,(char*)substring_start);}}else{if(rc >0){Found=true;}}
pcre2_match_data_free(match_data);
pcre2_code_free(re);returnFound;}
Installieren Sie PCRE mit:
wget https://ftp.pcre.org/pub/pcre/pcre2-10.31.zip
make
sudo make install
sudo ldconfig
Antworten:
Reguläre Ausdrücke sind eigentlich nicht Teil von ANSI C. Es hört sich so an, als würden Sie über die POSIX-Bibliothek für reguläre Ausdrücke sprechen, die mit den meisten (allen?) * Nixen geliefert wird. Hier ist ein Beispiel für die Verwendung von POSIX-Regexen in C (basierend darauf ):
Alternativ können Sie auch PCRE ausprobieren , eine Bibliothek für Perl-kompatible reguläre Ausdrücke in C. Die Perl-Syntax entspricht weitgehend der in Java, Python und einer Reihe anderer Sprachen verwendeten Syntax. Die POSIX Syntax ist die Syntax von
grep
,sed
,vi
usw.quelle
regcomp
,cflags
ist eine Bitmaske. Von pubs.opengroup.org/onlinepubs/009695399/functions/regcomp.html : "Das Argument cflags ist das bitweise inklusive ODER von null oder mehr der folgenden Flags ...". Wenn Sie zusammen Null machen, erhalten Sie 0. Ich sehe, dass die Linux-Manpage fürregcomp
"cflags kann das bitweise oder eines oder mehrere der folgenden sein" sagt, was irreführend erscheint.regmatch_t matches[MAX_MATCHES]; if (regexec(&exp, sz, MAX_MATCHES, matches, 0) == 0) { memcpy(buff, sz + matches[1].rm_so, matches[1].rm_eo - matches[1].rm_so); printf("group1: %s\n", buff); }
Beachten Sie, dass Gruppenübereinstimmungen bei 1 beginnen, Gruppe 0 die gesamte Zeichenfolge ist. Fügen Sie Fehlerprüfungen für außerhalb der Grenzen usw. hinzuregfree
dies nach einem Fehlschlag erforderlich istregcomp
, obwohl dies tatsächlich eher unterbestimmt istEs ist wahrscheinlich nicht das, was Sie wollen, aber ein Tool wie re2c kann reguläre POSIX (-ish) -Ausdrücke zu ANSI C kompilieren. Es wurde als Ersatz für geschrieben
lex
, aber dieser Ansatz ermöglicht es Ihnen, Flexibilität und Lesbarkeit für das letzte bisschen Geschwindigkeit zu opfern, wenn du brauchst es wirklich.quelle
man regex.h
Berichten zufolge gibt es keinen manuellen Eintrag für regex.h, aberman 3 regex
Sie erhalten eine Seite, auf der die POSIX-Funktionen für den Mustervergleich erläutert werden.Dieselben Funktionen werden in The GNU C Library: Regular Expression Matching beschriebenDieselben , in dem erklärt wird, dass die GNU C Library sowohl die POSIX.2-Schnittstelle als auch die Schnittstelle unterstützt, über die die GNU C Library seit vielen Jahren verfügt.
Für ein hypothetisches Programm, das druckt, welche der als Argument übergebenen Zeichenfolgen mit dem als erstes Argument übergebenen Muster übereinstimmen, können Sie beispielsweise Code verwenden, der dem folgenden ähnlich ist.
Das letzte Argument von
regcomp()
muss mindestens seinREG_EXTENDED
, sonst verwenden die Funktionen grundlegende reguläre Ausdrücke , was bedeutet, dass Sie (zum Beispiel)a\{3\}
anstellea{3}
von erweiterten regulären Ausdrücken verwenden müssten , was wahrscheinlich das ist, was Sie erwarten.POSIX.2 hat auch eine andere Funktion für den Platzhalterabgleich :
fnmatch()
. Es ist nicht möglich, den regulären Ausdruck zu kompilieren oder die Teilzeichenfolgen abzurufen, die mit einem Unterausdruck übereinstimmen. Es ist jedoch sehr spezifisch, um zu überprüfen, ob ein Dateiname mit einem Platzhalter übereinstimmt (z. B. wird dasFNM_PATHNAME
Flag verwendet).quelle
Dies ist ein Beispiel für die Verwendung von REG_EXTENDED. Dieser reguläre Ausdruck
Ermöglicht das Abfangen von Dezimalzahlen im spanischen und internationalen System. :) :)
quelle
Obwohl die obige Antwort gut ist, empfehle ich die Verwendung von PCRE2 . Dies bedeutet, dass Sie jetzt buchstäblich alle Regex-Beispiele verwenden können und nicht aus einem alten Regex übersetzen müssen.
Ich habe bereits eine Antwort darauf gegeben, aber ich denke, dass es auch hier helfen kann.
Regex In C zur Suche nach Kreditkartennummern
Installieren Sie PCRE mit:
Kompilieren mit:
Überprüfen Sie meine Antwort für weitere Details.
quelle