BAO2

BAO2 est pour but de l’étiquettage. On a deux supports Cordial et Treetagger, qui sont tous étiqueteurs adaptés pour le français.

Cordial : entrée txt, encodage ANSI, logiciel externe

Treetagger: entrée xml, encodage utf-8, intégré dans le script

Selon les utilisateurs, Cordial a une difficulté en traitant le grand corpus de taille 1MB +, et Treetagger produit les fichiers xml hyperlong que dans les éditeurs xml, ce n’est pas assez lisible.

Cordial:

Puisque Cordial prend l’entrée de fichier txt en « iso », on doit d’abord convertir le txt de BAO1 en « utf-8 » à « iso ».

On va obtenir un fichier avec l’extention « .cnr » qui a trois colonne : token, lemme et catégorie gramaticale.

Treetagger:

0. Préparation télécharger le fichier langue french-oral-utf-8.par

Les étapes pour intégrer Treetagger dans notre script de BAO1:

1. On insérer un sous programme de l’étiquetage.

2. On met tous les titre dans un fichier temporaire et utilise les programmes fournis par le prof pour étiqueter un par un les titres. Le résultat est temporairement sauvegardé dans un nouveau fichier.

2.1 Faire appel le programme de tokenisation : tokenise-utf8.pl

2.2 Faire appel le programme de Treetagger treetagger2xml-utf8.pl

3. Insérer les titres étiquetés dans le fichier xml.

4. Il faut faire attention qu’on ne traite pas la première ligne de fichier xml qui fait la déclaration.

5. On fait la même chose pour la description.

6. Ce sous programme est lancé juste après l’extraction et avant d’imprimer.

Le script pur perl est vu lemondetree.pl, celui avec le module XML::RSS est vu lemondexmltree.pl.

À noter :

  1. puisque le script est écrit comme: scripttree.png

il faut faire attention que le programme d’execution « tree-tagger » et le fichier du langage qu’on a mentionné dessus se sont mis dans le même répertoire que les scripts « lemondetree.pl, tokenise-utf8.pl, treegatter2xml-utf8.pl ». Et donc quand on télécharger le « tree-tagger-MacOSX-3.2 » à partir de Treetagger (http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/), on a besoin juste de déplacer ce programme au répertoire parallèl (j’ai pas installé TreeTagger).

les situations normales:

tagterminal.png

2. De temps en temps, le résultat n’est pas agréable pour quelques rubriques, chez moi, le rubrique « sport » est pire que « économie ». Il y a toujours des fichiers xml négligés. L’hypothèse est que ces fichiers ne sont pas bien écrit en <item><title>contenu</title><link>blabla</link><description>blablabla</description>…

treenegliger.png

3. C’est terrible de passer un apres-midi de lancer l’etiquetage sur tout l’arborescence. Le fichier final de 3234 économie surface est presque 7M déjà, durée 4h+.

treeresult.png

 

Puisque à BAO1, on a écrit deux scripts en perl, l’un pur, l’autre avec le module XML::RSS. On peut intégrer Treetagger au dernier aussi. C’est juste de petites modifications.

La vitesse est toujours … lente. Il me coûte 6h+ de lancer le programme (mais en même temps j’ai eu une téléphonevision sur Facebook. Je ne sais pas si cela a changé la vitesse). Heureusement, le résultat que donne le script avec XML::RSS est beaucoup mieux que le pur perl ( on a mentionné que le pur perl a raté quelques fichiers). Le fichier de sortie est 22M, et tous les fichiers sont traités. (voir 3234-surface-etiq-xmlrss.xml)

 

Laisser un commentaire