Séance du 15 novembre : expressions régulières !

Cette 8ème séance a été consacrée en grande partie à la (re)découverte des expressions régulières.

Les expressions régulières sont des chaînes de caractères qui permettent de rechercher et de reconnaître une certaine chaîne de caractères, un certain contenu, dans un texte. Elles peuvent donc nous être très utiles pour l’avancement de notre projet, notamment pour la partie d’analyses (extraction des contextes du mot choisi, etc.).

Nous allons donc faire un résumé de ce que nous avons retenu.

Les caractères principaux qui permettent d’écrire les expressions régulières selon leur propre syntaxe sont les suivants :

.     \     ^    $     |     [  ]     (  )

 

 

Voici une description plus détaillée de ces éléments :

.     caractère joker, il remplace n’importe quel caractère

   0 ou 1 occurrence de l’expression qui précède

  0 ou plus occurrences de l’expression qui précède, par exemple pour l’expression régulière lo*ng on obtiendra des résultats comme « lng », « long », « loong », etc.

+    au moins une occurrence

^    début de chaîne

$    fin de chaîne

[  ]   un caractère parmi l’ensemble, par exemple, l’expression régulière gr[ioa]s pourra donner les résultats « gris », « gros » et « gras »

(  |  )   l’un au l’autre, union, par exemple pour l’expression régulière chaque (jour|semaine|mois) on obtiendra les résultats « chaque jour », « chaque semaine » et « chaque mois »

\b    boundary, frontière de mot : permet de délimiter une chaîne de caractères

\w   n’importe quel caractère de mot

\W   non caractère de mot

 

Il est important de retenir que certains caractères sont plus forts ou prioritaires par rapport à d’autres : par exemple, * est prioritaire par rapport à la concaténation, qui est elle-même prioritaire par rapport à l’union.

 

Lors de cette séance, nous avons également parlé de la commande egrep, dont la syntaxe est la suivante : egrep [options] patron fichier

Cette commande permet d’afficher à l’écran toutes les lignes d’un fichier qui contiennent une chaîne désignée par le motif, ou le patron de notre choix. On peut définir ce dernier à l’aide des expressions régulières.

Par défaut, la commande egrep extrait les lignes du fichier, mais on peut choisir d’extraire les occurrences qui nous intéressent (grâce à l’option -o), ou les lignes qui ne contiennent pas le motif que l’on recherche (grâce à l’option -v). Beaucoup d’autres options sont disponibles pour cette commande, et nous pouvons les retrouver grâce à la commande man dans notre fenêtre de commande.

 

Bonne navigation sur notre blog,

So-young, Yamina et Angèle 🙂

Laisser un commentaire