Résumé de séances …

Le premier exercice à faire pour le cours consistait en la création d’un script permettant de générer un fichier html contenant un tableau avec deux lignes : notre nom et le mot choisi pour le projet.

C’est de cela que nous sommes partis pour les deux séances qui ont suivi.

Premièrement, nous avons revu la structure d’une page html, que vous pouvez voir ci-dessous.

html_structure
HTML – structure

Ce qu’il faut retenir ?

  • Il est important de préciser l’encodage à l’aide d’une balise placée dans la balise <head> afin d’éviter des problèmes d’affichage des caractères diacrités, comme cela a pu être soulevé lors de la correction des exercices.
  • La commande iconv permet de changer l’encodage d’un fichier.
  • La commande file -i text.html donne l’encodage du fichier text.html (ne fonctionne pas toujours).
  • La balise <tr> signifie « table raw » (ligne) et la balise <td> signifie « table data » (colonne).

 

L’exercice nous a ensuite amené vers la création d’un script permettant de générer un fichier html contenant un tableau de plusieurs colonnes :

  • une colonne de numéros
  • une colonne contenant les urls sous forme de lien cliquables
  • une colonne contenant les pages aspirées depuis ces urls sous forme de liens cliquables

 

Nous avons commencé par créer un fichier de paramètres, contenant deux paramètres : l’INPUT, c’est-à-dire le répertoire URLS et l’OUTPUT, c’est-à-dire un fichier html rangé dans le répertoire TABLEAUX.

parametres
Paramètres _Tableaux d’URLS

 

Puis, nous avons créé un script permettant de générer un tableau dans un fichier html à partir de  fichiers d’urls :

tablo_script.PNG
Script – Tableaux d’URLS

Important : la présence de  » \ « , antislash, devant certains caractères permet d’annuler leur fonction. Par exemple, à la ligne 16, s’il n’y avait pas d’antislashs devant les guillemets, la commande echo afficherait la chaîne de caractères comprise seulement entre le premier et le deuxième guillemet.

execution_script
Exécution du script dans la fenêtre de commande

 

Lorsqu’on ouvre le fichier html créé sur Firefox, voici ce qu’on obtient :

tablo2_firefox.PNG
Fichier html

La deuxième colonne contient nos urls sous forme de liens cliquables qui nous amènent directement sur le web.

La troisième colonne contient le contenu de chaque page aspirée également sous forme de liens cliquables, mais qui mènent cette fois-ci vers des fichiers html créés dans le répertoire PAGES_ASPIREES :

pages_asp_tablo.PNG

On remarque cependant un message d’erreur apparaissant dans le terminal au moment de l’exécution du script pour certaines urls :

22810231_1738543919497388_1210610394_o.png
Problème

Par exemple, pour deux articles d’un même blog, le script arrivera à aspirer le contenu de l’un mais affichera un message d’erreur pour l’autre.

Nous espérons arriver à résoudre ce problème au cours des prochaines séances…

 

Soyoung, Yamina et Angèle

Laisser un commentaire