Script et résultat (Yamina)

Pour mon script, j’ai tout simplement utilisé la base déjà fournie sur la plateforme I-campus.

 

Cattura di schermata (281)

Cattura di schermata (282)

J’ai donc rajouté le test de la bonne réussite du téléchargement de la page :

une fois que la page a été aspirée, si son code retour est égal à 200, alors on a réussi le test :le téléchargement marche bien. Notons aussi que la condition se ferme juste après le « else » avec « fi » : si ce n’est pas ==’200′ alors c’est forcement !==’200′.

Ensuite, on va détecter l’encodage de la page en ligne:

« if $encodage ==’utf-8′: si le résultat de l’encodage est == ‘utf-8’, alors on trouvera le résultat en format txt dans le répertoire DUMPT-TEXTE et on extrait le contexte autour du mot.

Cattura di schermata (283)

Si non, tout d’abord on va vérifier que l’encodage trouvé n’est pas vide. Ensuite on doit s’assurer que l’encodage trouvé est bien connu par la commande iconv. Si l’encodage est connu par iconv, on procède avec l’extraction des résultats, si non on ne fait rien.

Cattura di schermata (284)

Si l’encodage de la page n’a pas été détecté, on crée une autre variable « isthereacharset » qui a comme valeur le résultat trouvé par une expression régulière qui permet de trouver l’encodage. Ensuite on continue avec la même logique et les mêmes blocs du code qu’on a utilisé précédemment. On va vérifier que la variable « VERIFENCODAGEDANSICONV » n’est pas vide. Si elle est vide, on ne fait rien. Si non, si elle n’est pas vide, et donc le charset est bien connu, on peut continuer avec l’aspiration de la page, la conversion en utf-8 de cette dernière et le lancement du programme minigrep.

Tout semble marcher correctement avec ce script 🙂

Voilà un aperçu des trois tableaux obtenus:

Cattura di schermata (291)

 

 

Cattura di schermata (292)

Cattura di schermata (293)

Bonne continuation de lecture sur notre blog! 🙂

Yamina

Laisser un commentaire