La dernière étape de notre script final consiste à remplir la colonne CONTEXTE.HTML de notre tableau. Pour cela, on a besoin d’installer le programme minigrep. Ce programme nous permet de chercher et extraire les contextes des mots choisis dans les différentes langues.
Une fois qu’on a installé la bibliothèque Perl, on peut utiliser minigrep et donc l’intégrer dans notre script final. Nous allons rajouter quelques lignes dans le script:
- echo « _____MINIGREP_____ »;
- perl ./PROGRAMMES/minigrep/minigrepmultilingue.pl « UTF-8 » ./DUMP-TEXT/$cpttableau-$compteur.txt ./PROGRAMMES/minigrep/motif-regexp.txt ;
- mv resultat-extraction.html ./CONTEXTES/$cpttableau-$compteur.html.
La commande « echo » nous permet tout simplement d’afficher le début de l’étape minigrep dans la console.
La commande Perl exécute le programme minigrepmultilingue.pl.
« UTF-8 » indique l’encodage du fichier: « ./DUMP-TEXT/$cpttableau-$compteur.txt »,
./PROGRAMMES/minigrep/motif-regexp.txt indique le fichier qui contient les mots recherchés.
mv resultat-extraction.html ./CONTEXTES/$cpttableau-$compteur.html renomme le fichier de sortie.
Pendant cette séance, nous avons aussi vu comment concaténer les contextes et les fichiers DUMP.TXT pour pouvoir les analyser.
Nous avons vu que nous pouvons le faire manuellement.
Avant de concaténer il faut penser à éliminer tous les chevrons présents au départ:
for fichier in $(ls 1*); do echo « <file=\ »$fichier\ »> » >> TOUS_LES_DUMP; cat $fichier | sed -r ‘s/<[^>]*>//g’ | tr -d ‘<‘ | tr -d ‘>’
>> TOUS_LES_DUMP; echo « </file> » >> TOUS_LES_DUMP; done
On créera donc un sous-dossier CONCAT-DUMP / CONCAT-CONTEXT où on placera les fichiers concaténés TOUT_LES_DUMPS et TOUT_LES_CONTEXTES.