Séance du 08/11/2017

 

Suite au script de la séance précédente ci-dessous :

Screen Shot 2017-11-15 at 02.34.57.png

Ce qu’on a fait jusque là :

  • Lire les donées en entrée (x fichiers d’URLs
  • Ecrire dans un fichier de sortie en HTML (tableaux)
  • et pour chacun des fichiers d’URLs…
    • Détecter l’encodage des données(de l’URL)
    • Récupérer l’URL localement sur ma machine
    • Si l’encodage est UTF8
      • ALORS : extraction du texte « brut » de la page
      • AUTREMENT : rien pour le moment
    • Ecrire les résultats dans un tableau HTML (pour accéder aux données traitées et aux contenus textuels)

 

 

Alors, pour enrichir le script précédent, les problèmes à résoudre sont :

  • S’assurer que la récupération d’une URL se passe bien
  • Transcoder les données non UTF-8  : ici, introduire la commande iconv
  • Extraire des contextes des unités lexicales choisies  : introduire la commande egrep
  • Ecrire tous les résultats dans le tableau final     : insérer les colonnes idoines

 

 

après la détection de l’encodage de la page en ligne, pour transcoder les données non UTF-8,

Screen Shot 2017-11-15 at 03.46.10.png

 

 

 

Finalement, le script du résultat de cette séance est …

Screen Shot 2017-11-15 at 03.15.13.png

 

 

Laisser un commentaire