I Comment le programme s'exécute
Au bout d'une cinquantaine de liens URL collectés manuellement, nous sommes censé obtenir un tableau qui contient 8 huit colones pour chaque langues étudiées.
1)Lire depuis un fichier les listes d'URL et mettre les résultats dans le fichier_tableau
1)Lire depuis un fichier les listes d'URL et mettre les résultats dans le fichier_tableau
D’abord, les commandes "read" et "echo" nous permettent de lire des paramètres, $ est pour renvoyer la valeur de variable dans "read", DOSSIERURLS est input et fichier_tableau est output.
2)Régler l'affichage des tableaux
La deuxième partie est pour l’affichage des tableaux, il faut mettre compteur "cptableau=1" avant le boucle, et on va commencer le premier boucle pour traiter chaque fichier dans le dossier.
La deuxième partie est pour l’affichage des tableaux, il faut mettre compteur "cptableau=1" avant le boucle, et on va commencer le premier boucle pour traiter chaque fichier dans le dossier.
Pourtant il faut pas oublier de fermer les balises de "body" et de "html" à la fin, sinon on vera l'erreur ci-dessous:
3)Aspirer des pages associées aux URLS avec "curl" et détecter leur encodage
si E=UTF8
sinon on fais rien
4)faire ceci pour chaque liste d'URL
4)faire ceci pour chaque liste d'URL
II Tester et améliorer les script
Voici le tableau en chinois
Il y a pas mal de liens sans résultat pour les DUMP initial et CONTEXTE UTF-8, pour résoudre ce problème, on va voir plus de détails sur chaque lien, on prend lien n°2 comme exemple
Ici, on voit bien que le lien2 est encodé en UTF-8, voici pourquoi ceci n'était pas affiché correctement sur le tableau:
Quand bash ne trouve pas les informations correspondantes, il affichera vide,"ECRITURE RESULTAT dans le tableau", évidemment la commande "curl" n'est pas suffisante pour traiter tous les liens, on va essayer avec "egrep" afin d'afficher les encodages.
Aucun commentaire:
Enregistrer un commentaire