C'de düzenli ifadeler: örnekler?


171

ANSI C'de düzenli ifadelerin nasıl kullanılacağına dair bazı basit örnekler ve en iyi uygulamaların peşindeyim man regex.h, bu kadar fazla yardım sağlamaz.


6
ANSI C'de normal regex desteği yoktur. Hangi regex kütüphanesini kullanıyorsunuz?
Joe

7
Rob Pike , kendisi ve Brian Kernighan'ın birlikte yazdıkları Programlama Uygulaması kitabı için düzenli ifadelerin çok yararlı bir alt kümesini kabul eden küçük bir düzenli ifade dizesi arama işlevi yazdı. Bu tartışmaya, Düzenli İfade Eşleştiricisi
Richard Chambers

Yanıtlar:


233

Normal ifadeler aslında ANSI C'nin bir parçası değildir. Çoğu (tümü?) * Nix'leri ile birlikte gelen POSIX düzenli ifade kütüphanesinden bahsediyormuşsunuz gibi geliyor. Aşağıda C dilinde POSIX normal ifadelerinin kullanımına bir örnek ( bu ):

#include <regex.h>        
regex_t regex;
int reti;
char msgbuf[100];

/* Compile regular expression */
reti = regcomp(&regex, "^a[[:alnum:]]", 0);
if (reti) {
    fprintf(stderr, "Could not compile regex\n");
    exit(1);
}

/* Execute regular expression */
reti = regexec(&regex, "abc", 0, NULL, 0);
if (!reti) {
    puts("Match");
}
else if (reti == REG_NOMATCH) {
    puts("No match");
}
else {
    regerror(reti, &regex, msgbuf, sizeof(msgbuf));
    fprintf(stderr, "Regex match failed: %s\n", msgbuf);
    exit(1);
}

/* Free memory allocated to the pattern buffer by regcomp() */
regfree(&regex);

Alternatif olarak, C'deki Perl uyumlu düzenli ifadeler için bir kütüphane olan PCRE'ye bakmak isteyebilirsiniz . Perl sözdizimi hemen hemen Java, Python ve diğer bazı dillerde kullanılan sözdiziminin aynısıdır. POSIX sözdizimi tarafından kullanılan grep, sed, vivs.


7
İkinci PCRE bağımlılığından kaçınmanız gerekmedikçe, bazı güzel sözdizimi geliştirmeleri var ve çok kararlı. En azından Linux'un bazı eski sürümlerinde, "yerleşik" normal ifade kütüphanesinin, belirli giriş dizeleri ve "neredeyse" çok sayıda özel karakterle eşleştiği veya içerdiği belirli düzenli ifadeler göz önüne alındığında çökmek çok zor değil
BDK

@Laurence regcomp'a 0 geçmenin anlamı nedir? regcomp 4 farklı modu temsil etmek için sadece 1, 2, 4 ve 8 dört tamsayı alır.
lixiang

2
@lixiang son parametre için regcomp, cflagsbir bit maskesi. Gönderen pubs.opengroup.org/onlinepubs/009695399/functions/regcomp.html : "derleme-argüman bit şeklinde kapsayıcı VEYA aşağıdaki bayrakları sıfır veya daha fazla ..." dedi. OR-hep birlikte sıfır alırsanız, 0 alırsınız. Linux kılavuzunun regcomp"cflags bitsel ya da aşağıdakilerden bir veya daha fazlasının" olabileceğini söylüyor. Bu yanıltıcı görünüyor.
Laurence Gonsalves

2
Eşleşen gruplardan aşağıdaki gibi bir şeyle metin ayıklayabilirsiniz: regmatch_t matches[MAX_MATCHES]; if (regexec(&exp, sz, MAX_MATCHES, matches, 0) == 0) { memcpy(buff, sz + matches[1].rm_so, matches[1].rm_eo - matches[1].rm_so); printf("group1: %s\n", buff); }grup eşleşmelerinin 1'de başladığını, grup 0'ın tüm dizeyi oluşturduğunu unutmayın. Sınırların dışında vb. İçin hata denetimleri ekleyin
BurnsBA

2
regfreeBir başarısızlıktan sonra gerekli olup olmadığına ilişkin olarak regcomp, oldukça az belirtilmiş olsa da, bu yapılmaması gerektiğini gösterir: redhat.com/archives/libvir-list/2013-September/msg00276.html
Daniel Jour

12

Muhtemelen istediğiniz şey değildir, ancak re2c gibi bir araç ANSI C'ye düzenli olarak POSIX (-ish) ifadeleri derleyebilir, bunun yerine yazılmıştır lex, ancak bu yaklaşım son hızın esnekliği ve okunabilirliğini feda etmenizi sağlar, eğer gerçekten ihtiyacın var.


9

man regex.hraporlarında regex.h için manuel giriş yoktur, ancak man 3 regex desen eşleşmesi için POSIX işlevlerini açıklayan bir sayfa verir.
Aynı işlevler , GNU C Kütüphanesinin hem POSIX.2 arayüzünü hem de GNU C Kütüphanesinin yıllardır sahip olduğu arayüzü desteklediğini açıklayan GNU C Kütüphanesi: Normal İfade Eşleştirmesi'nde açıklanmaktadır .

Örneğin, argüman olarak geçirilen dizelerden hangisini ilk argüman olarak iletilen desenle eşleştiren varsayımsal bir program için, aşağıdakine benzer bir kod kullanabilirsiniz.

#include <errno.h>
#include <regex.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

void print_regerror (int errcode, size_t length, regex_t *compiled);

int
main (int argc, char *argv[])
{
  regex_t regex;
  int result;

  if (argc < 3)
    {
      // The number of passed arguments is lower than the number of
      // expected arguments.
      fputs ("Missing command line arguments\n", stderr);
      return EXIT_FAILURE;
    }

  result = regcomp (&regex, argv[1], REG_EXTENDED);
  if (result)
    {
      // Any value different from 0 means it was not possible to 
      // compile the regular expression, either for memory problems
      // or problems with the regular expression syntax.
      if (result == REG_ESPACE)
        fprintf (stderr, "%s\n", strerror(ENOMEM));
      else
        fputs ("Syntax error in the regular expression passed as first argument\n", stderr);
      return EXIT_FAILURE;               
    }
  for (int i = 2; i < argc; i++)
    {
      result = regexec (&regex, argv[i], 0, NULL, 0);
      if (!result)
        {
          printf ("'%s' matches the regular expression\n", argv[i]);
        }
      else if (result == REG_NOMATCH)
        {
          printf ("'%s' doesn't the regular expression\n", argv[i]);
        }
      else
        {
          // The function returned an error; print the string 
          // describing it.
          // Get the size of the buffer required for the error message.
          size_t length = regerror (result, &regex, NULL, 0);
          print_regerror (result, length, &regex);       
          return EXIT_FAILURE;
        }
    }

  /* Free the memory allocated from regcomp(). */
  regfree (&regex);
  return EXIT_SUCCESS;
}

void
print_regerror (int errcode, size_t length, regex_t *compiled)
{
  char buffer[length];
  (void) regerror (errcode, compiled, buffer, length);
  fprintf(stderr, "Regex match failed: %s\n", buffer);
}

Son argüman regcomp()ihtiyaçlarına en azından olması REG_EXTENDED, veya işlevler kullanacak temel düzenli ifadeler (örneğin) kullanmak gerekir ki, araçlar a\{3\}yerine a{3}gelen kullanılan genişletilmiş düzenli ifadeler kullanmak beklediğiniz muhtemelen olan.

POSIX.2 da joker eşleştirme için başka bir işlevi vardır: fnmatch(). Normal ifadenin derlenmesine veya bir alt ifadeyle eşleşen alt dizelerin alınmasına izin vermez, ancak bir dosya adının joker karakterle eşleştiğini kontrol etmek için çok belirgindir (örneğin, FNM_PATHNAMEbayrağı kullanır ).


6

Bu REG_EXTENDED kullanımına bir örnektir. Bu düzenli ifade

"^(-)?([0-9]+)((,|.)([0-9]+))?\n$"

İspanyol sisteminde ve uluslararası ondalık sayıları yakalamanızı sağlar. :)

#include <regex.h>
#include <stdlib.h>
#include <stdio.h>
regex_t regex;
int reti;
char msgbuf[100];

int main(int argc, char const *argv[])
{
    while(1){
        fgets( msgbuf, 100, stdin );
        reti = regcomp(&regex, "^(-)?([0-9]+)((,|.)([0-9]+))?\n$", REG_EXTENDED);
        if (reti) {
            fprintf(stderr, "Could not compile regex\n");
            exit(1);
        }

        /* Execute regular expression */
        printf("%s\n", msgbuf);
        reti = regexec(&regex, msgbuf, 0, NULL, 0);
        if (!reti) {
            puts("Match");
        }
        else if (reti == REG_NOMATCH) {
            puts("No match");
        }
        else {
            regerror(reti, &regex, msgbuf, sizeof(msgbuf));
            fprintf(stderr, "Regex match failed: %s\n", msgbuf);
            exit(1);
        }

        /* Free memory allocated to the pattern buffer by regcomp() */
        regfree(&regex);
    }

}

5

Yukarıdaki cevap iyi olsa da, PCRE2 kullanmanızı öneririm . Bu, şu anda tüm regex örneklerini tam anlamıyla kullanabileceğiniz ve bazı eski regex'ten tercüme etmek zorunda olmadığınız anlamına gelir.

Bunun için zaten bir cevap verdim, ama sanırım burada da yardımcı olabilir ..

Kredi Kartı Numaralarını Aramak İçin Regex C

// YOU MUST SPECIFY THE UNIT WIDTH BEFORE THE INCLUDE OF THE pcre.h

#define PCRE2_CODE_UNIT_WIDTH 8
#include <stdio.h>
#include <string.h>
#include <pcre2.h>
#include <stdbool.h>

int main(){

bool Debug = true;
bool Found = false;
pcre2_code *re;
PCRE2_SPTR pattern;
PCRE2_SPTR subject;
int errornumber;
int i;
int rc;
PCRE2_SIZE erroroffset;
PCRE2_SIZE *ovector;
size_t subject_length;
pcre2_match_data *match_data;


char * RegexStr = "(?:\\D|^)(5[1-5][0-9]{2}(?:\\ |\\-|)[0-9]{4}(?:\\ |\\-|)[0-9]{4}(?:\\ |\\-|)[0-9]{4})(?:\\D|$)";
char * source = "5111 2222 3333 4444";

pattern = (PCRE2_SPTR)RegexStr;// <<<<< This is where you pass your REGEX 
subject = (PCRE2_SPTR)source;// <<<<< This is where you pass your bufer that will be checked. 
subject_length = strlen((char *)subject);




  re = pcre2_compile(
  pattern,               /* the pattern */
  PCRE2_ZERO_TERMINATED, /* indicates pattern is zero-terminated */
  0,                     /* default options */
  &errornumber,          /* for error number */
  &erroroffset,          /* for error offset */
  NULL);                 /* use default compile context */

/* Compilation failed: print the error message and exit. */
if (re == NULL)
  {
  PCRE2_UCHAR buffer[256];
  pcre2_get_error_message(errornumber, buffer, sizeof(buffer));
  printf("PCRE2 compilation failed at offset %d: %s\n", (int)erroroffset,buffer);
  return 1;
  }


match_data = pcre2_match_data_create_from_pattern(re, NULL);

rc = pcre2_match(
  re,
  subject,              /* the subject string */
  subject_length,       /* the length of the subject */
  0,                    /* start at offset 0 in the subject */
  0,                    /* default options */
  match_data,           /* block for storing the result */
  NULL);

if (rc < 0)
  {
  switch(rc)
    {
    case PCRE2_ERROR_NOMATCH: //printf("No match\n"); //
    pcre2_match_data_free(match_data);
    pcre2_code_free(re);
    Found = 0;
    return Found;
    //  break;
    /*
    Handle other special cases if you like
    */
    default: printf("Matching error %d\n", rc); //break;
    }
  pcre2_match_data_free(match_data);   /* Release memory used for the match */
  pcre2_code_free(re);
  Found = 0;                /* data and the compiled pattern. */
  return Found;
  }


if (Debug){
ovector = pcre2_get_ovector_pointer(match_data);
printf("Match succeeded at offset %d\n", (int)ovector[0]);

if (rc == 0)
  printf("ovector was not big enough for all the captured substrings\n");


if (ovector[0] > ovector[1])
  {
  printf("\\K was used in an assertion to set the match start after its end.\n"
    "From end to start the match was: %.*s\n", (int)(ovector[0] - ovector[1]),
      (char *)(subject + ovector[1]));
  printf("Run abandoned\n");
  pcre2_match_data_free(match_data);
  pcre2_code_free(re);
  return 0;
}

for (i = 0; i < rc; i++)
  {
  PCRE2_SPTR substring_start = subject + ovector[2*i];
  size_t substring_length = ovector[2*i+1] - ovector[2*i];
  printf("%2d: %.*s\n", i, (int)substring_length, (char *)substring_start);
  }
}

else{
  if(rc > 0){
    Found = true;

    } 
} 
pcre2_match_data_free(match_data);
pcre2_code_free(re);
return Found;

}

PCRE yazılımını kullanarak şunları yükleyin:

wget https://ftp.pcre.org/pub/pcre/pcre2-10.31.zip
make 
sudo make install 
sudo ldconfig

Kullanarak derleyin:

gcc foo.c -lpcre2-8 -o foo

Daha fazla ayrıntı için cevabımı kontrol et.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.