Le premier exercice à faire pour le cours consistait en la création d’un script permettant de générer un fichier html contenant un tableau avec deux lignes : notre nom et le mot choisi pour le projet.
C’est de cela que nous sommes partis pour les deux séances qui ont suivi.
Premièrement, nous avons revu la structure d’une page html, que vous pouvez voir ci-dessous.
Ce qu’il faut retenir ?
- Il est important de préciser l’encodage à l’aide d’une balise placée dans la balise <head> afin d’éviter des problèmes d’affichage des caractères diacrités, comme cela a pu être soulevé lors de la correction des exercices.
- La commande iconv permet de changer l’encodage d’un fichier.
- La commande file -i text.html donne l’encodage du fichier text.html (ne fonctionne pas toujours).
- La balise <tr> signifie « table raw » (ligne) et la balise <td> signifie « table data » (colonne).
L’exercice nous a ensuite amené vers la création d’un script permettant de générer un fichier html contenant un tableau de plusieurs colonnes :
- une colonne de numéros
- une colonne contenant les urls sous forme de lien cliquables
- une colonne contenant les pages aspirées depuis ces urls sous forme de liens cliquables
Nous avons commencé par créer un fichier de paramètres, contenant deux paramètres : l’INPUT, c’est-à-dire le répertoire URLS et l’OUTPUT, c’est-à-dire un fichier html rangé dans le répertoire TABLEAUX.
Puis, nous avons créé un script permettant de générer un tableau dans un fichier html à partir de fichiers d’urls :
Important : la présence de » \ « , antislash, devant certains caractères permet d’annuler leur fonction. Par exemple, à la ligne 16, s’il n’y avait pas d’antislashs devant les guillemets, la commande echo afficherait la chaîne de caractères comprise seulement entre le premier et le deuxième guillemet.
Lorsqu’on ouvre le fichier html créé sur Firefox, voici ce qu’on obtient :
La deuxième colonne contient nos urls sous forme de liens cliquables qui nous amènent directement sur le web.
La troisième colonne contient le contenu de chaque page aspirée également sous forme de liens cliquables, mais qui mènent cette fois-ci vers des fichiers html créés dans le répertoire PAGES_ASPIREES :
On remarque cependant un message d’erreur apparaissant dans le terminal au moment de l’exécution du script pour certaines urls :
Par exemple, pour deux articles d’un même blog, le script arrivera à aspirer le contenu de l’un mais affichera un message d’erreur pour l’autre.
Nous espérons arriver à résoudre ce problème au cours des prochaines séances…
Soyoung, Yamina et Angèle