Fermer

Cours et exercices/Projet

Séance du 08/11/2017

15 novembre 201722 novembre 2017 plurimamanLaisser un commentaire

Suite au script de la séance précédente ci-dessous :

Screen Shot 2017-11-15 at 02.34.57.png

Ce qu’on a fait jusque là :

Lire les donées en entrée (x fichiers d’URLs
Ecrire dans un fichier de sortie en HTML (tableaux)
et pour chacun des fichiers d’URLs…
- Détecter l’encodage des données(de l’URL)
- Récupérer l’URL localement sur ma machine
- Si l’encodage est UTF8
  - ALORS : extraction du texte « brut » de la page
  - AUTREMENT : rien pour le moment
- Ecrire les résultats dans un tableau HTML (pour accéder aux données traitées et aux contenus textuels)

Alors, pour enrichir le script précédent, les problèmes à résoudre sont :

S’assurer que la récupération d’une URL se passe bien
Transcoder les données non UTF-8 : ici, introduire la commande iconv
Extraire des contextes des unités lexicales choisies : introduire la commande egrep
Ecrire tous les résultats dans le tableau final : insérer les colonnes idoines

après la détection de l’encodage de la page en ligne, pour transcoder les données non UTF-8,

Screen Shot 2017-11-15 at 03.46.10.png

Finalement, le script du résultat de cette séance est …

Screen Shot 2017-11-15 at 03.15.13.png

Laisser un commentaire Annuler la réponse.