Séance 22 novembre

La dernière étape de notre script final consiste à remplir la colonne CONTEXTE.HTML  de notre tableau. Pour cela, on a besoin d’installer le programme minigrep. Ce programme nous permet de chercher et extraire les contextes des mots choisis dans les différentes langues.

Cattura di schermata (258)

Cattura di schermata (259)

Cattura di schermata (260).png

Cattura di schermata (261)

Cattura di schermata (262)

Une fois qu’on a installé la bibliothèque Perl, on peut utiliser minigrep et donc l’intégrer dans notre script final. Nous allons rajouter quelques lignes dans le script:

  1. echo « _____MINIGREP_____ »;
  2. perl ./PROGRAMMES/minigrep/minigrepmultilingue.pl « UTF-8 » ./DUMP-TEXT/$cpttableau-$compteur.txt  ./PROGRAMMES/minigrep/motif-regexp.txt ;
  3. mv resultat-extraction.html ./CONTEXTES/$cpttableau-$compteur.html.

La commande « echo » nous permet tout simplement d’afficher le début de l’étape minigrep dans la console.

La commande Perl exécute le programme minigrepmultilingue.pl.

 « UTF-8 » indique l’encodage du fichier: « ./DUMP-TEXT/$cpttableau-$compteur.txt »,

./PROGRAMMES/minigrep/motif-regexp.txt indique le fichier qui contient les mots recherchés.

mv resultat-extraction.html ./CONTEXTES/$cpttableau-$compteur.html renomme le fichier de sortie.

Pendant cette séance, nous avons aussi vu  comment concaténer les contextes et les fichiers DUMP.TXT pour pouvoir les analyser.

Nous avons vu que nous pouvons le faire manuellement.

Avant de concaténer il faut penser à éliminer tous les chevrons présents au départ:

for fichier in $(ls 1*); do echo « <file=\ »$fichier\ »> » >> TOUS_LES_DUMP; cat $fichier | sed -r ‘s/<[^>]*>//g’ | tr -d ‘<‘ | tr -d ‘>’
>> TOUS_LES_DUMP; echo « </file> » >> TOUS_LES_DUMP; done

On créera donc un sous-dossier CONCAT-DUMP / CONCAT-CONTEXT où on placera les fichiers concaténés TOUT_LES_DUMPS et TOUT_LES_CONTEXTES.

 

Laisser un commentaire