Problèmes résolus à projet encadré

1. Pourquoi à BAO2, le résultat de 651865 est si mauvais ?

Le résultat de rubrique technologie est beaucoup trop court par rapport aux autres. Quand je lance avec le script « lemondetree.pl » ou « lemondetreeXMLRSS.pl », le résultat ne change pas. Dans mon terminal, beaucoup de fichiers sont ratés sans être étiquetés.

treenegliger

Je pensais à trouver la différence entre le bon fichier et le fichier raté par d’abord le format xml ( pourrait-il être à cause de mauvaise reconnaissance d’expressions régulières?). Par comparer les fichiers, on ne trouve pas la différence fatale.

Je pensais donc à lancer le programme directement sur le fichier xml obtenu à BaO1 « 651865-surface-lib.xml » et je fais les petites modifications sur le script original (voir « lemondetreeXMLRSS-direct.pl ». Le résultat xml qu’on obtient est même plus court ! (parce qu’il filtre les bruits)

Après les dernières vérifications, on trouve que c’est parce qu’il se trouve beaucoup de contenu répété dans la rubrique technologie ! Du coup, on jette déjà les répititions…une tristesse au fond.

2. Comment faire si le format de xml qu’on obtient à BaO2 ne correspond pas au script que le prof offre à BaO3 ?

Le fichier xml que j’ai obtenu comme ça:

treeresult

Mais ce que le prof obtient est comme ça:

formatprof.png

Cela n’infuence pas si on prend la solution de appliquer le fichier xsl sur notre xml. Mais cela influence beaucoup si l’on lancer le programme du script perl pour extraire le patron, surtout quand on veut récupérer Nom+PRP+Nom.

Script du prof:

profscript.png

Modifié pour correspondre mon format:

monscript

et voilà.

3. Comment faire s’il n’effectue pas la transformation de xml par xsl en temps de l’affichage des patrons à BaO3 ?

D’abord il faut chercher dans le xml que l’on a obtenu à BaO2. On va trouver beaucoup de troubles s’il suffit d’exister « & ». Du coup il faut juste le changer par « & » qui est l’entité dans xml.

Laisser un commentaire