Translate

9 févr. 2017

Encodage (suite)

Comme on l'a mentionné lors de notre article Encodage, nous nous intéresserons dans ce nouvel article aux problèmes liés à l'encodage des pages web  mais aussi aux erreurs d'aspiration de ces pages et nous proposerons ainsi des solutions possibles à ces derniers.

Les fichiers du DUMP s'affichent mal !

Après l'execution du script et la création de notre tableau HTML la première fois, les fichiers du DUMP s'affichaient mal sur le navigateur et sur les fichiers .TXT du DUMP  même après la conversion avec la commande iconv comme on peut le remarquer ci-dessous :

Sur le navigateur 





On a constaté que le problème ne venait pas du script (commande iconv) mais plutôt du navigateur d'abord et puis de l'éditeur de texte.

       Solution

En effet, l'encodage de la plupart des navigateurs en Europe  (Safari pour notre cas) est par défaut ISO Latin 1 et non pas UTF-8. Il faut alors changer l'encodage par défaut dans les paramètres du navigateur en UTF-8. Pour safari, allez dans :préférences-->Avancé-->Encodage par défaut .
Il faut impérativement passer par cette étape avant d'exécuter votre script car le Dump rend le texte brut dans l'encodage par défaut du navigateur Web. 

Mais le problème ne se termine par là. Il faut faire aussi attention à votre éditeur de texte car le problème peut venir de celui-ci aussi: 




Après avoir résolu le problème du navigateur, on s'est rendu compte ensuite que les fichiers .txt du Dump s'affichaient mal aussi.On a du les examiner avec un éditeur hexadécimal  puis on a remarqué que ces derniers étaient bien encodés en UTF-8, on a su alors que le problème venait de notre éditeur de texte.

       Solution

Pour notre cas, on utilisait TextWrangler et Textedit ,  les deux éditeurs n'affichaient pas bien le contenu de notre fichier. On a découvert alors Atom un éditeur de texte puissant qui a pu lire nos fichiers et détecter leur encodage, à savoir UTF-8 comme on peut le voir ci-dessous : 




On vous conseille alors d'utiliser Atom ou Notepade++ comme éditeurs de texte par défaut sur votre machine pour éviter ce genre de problème.

Les fichiers du Dump contiennent que des messages d'erreurs !

Généralement, ce problème est dû à la suppression du site web, ou au fait que le site web ne donne pas la permission d'y accéder ou alors la connexion au réseau internet s'est coupée lors de l'exécution du script ce qui donne le code HTTP 000. 
On vous invite à consulter les codes de status HTTP pour connaître la cause des erreurs.





Aucun commentaire:

Enregistrer un commentaire