Re: [CBLX] docx: impossibilité de lire...

Tarik Fdil tfdil at sagma.ma
Sam 2 Fév 10:51:51 CET 2008


Salut Aldo,

Dans le répertoire word obtenu après unzip, tu trouveras un fichier nommé 
document.xml. C'est ce fichier qui contient les données utiles du document 
structuré en XML. Tu ouvres ce fichier avec l'éditeur vi et tu exécutes les 
deux commandes suivantes :

:1,$s/<[^>]*>/\r/g
:1,$g/^$/d

La première commande vi remplace toutes les balises XML par un retour 
chariot, histoire de se débarasser de toutes les balises de strcuture ou de 
mise en forme pour ne laisser que le texte utile.

Comme on obtient une tonne de lignes blanches, la seconde commande vi permet 
de s'en débarasser.

Au final tu obtient un texte brut dont la mise en page est un peu chaotique 
mais on peut y déchiffrer des informations utiles. Une meilleure 
connaissance de la nature des balises XML utlisées permettrait de faire un 
traitement plus intelligent et d'obtenir un texte mieux structuré, mais je 
ne connais pas le schéma XML d'Office et je n'ai pas le temps de m'y 
pencher.

Avec un peu de travail on pourrait faire un script propre nommé docx2txt.

Cordialement
Tarik

----- Original Message ----- 
From: "Aldo" <info at brlspeak.net>
To: "CBLX" <carrefourblinux at lists.freearchive.org>
Sent: Saturday, February 02, 2008 8:40 AM
Subject: [CBLX] docx: impossibilité de lire...


> Hello,
>
> qq'un m'envoit une pj en .docx, et apparement ce n'est ni un doc Word ni 
> un
> odt, mais un fichier openxml dont je ne vois pas que faire avec pour 
> pouvoir
> le lire: j'ai tenté de l'unziper, ça ça va, et j'obtiens un repo word/
> contenant pleins de fichiers xml, mais lequel est le contenant dud 
> contenu,
> ça ?!
> Et je paries en plus qu'il s'agit d'un document sorti tout droit des 
> usines
> de MSOffice11 /version Vista si vous préférez...
>
> Qq'n a une idée de ce qu'il faut faire avec?
>
> Aldo.
>
>
> --
> https://bugs.launchpad.net/ubuntu/+bug/1 :
> Micro$oft has a majority market share in the new desktop PC marketplace.
> This is a bug, which Ubuntu is designed to fix !
> http://www.ubuntu.com/
> _______________________________________________
> Liste de diffusion CarrefourBLinuX
>    CarrefourBLinuX at lists.freearchive.org
>    http://lists.freearchive.org/mailman/listinfo/carrefourblinux
> Fiches EDU : http://blinuxwiki.pbwiki.com/FichesEdu
> Signets : http://fr.groups.yahoo.com/group/carrefourblinux/links/
> Archives : http://lists.freearchive.org/pipermail//carrefourblinux
> Anciennes archives (Yahoogroupes) :
>    http://fr.groups.yahoo.com/group/carrefourblinux/messages
> Rechercher : http://lists.freearchive.org/cgi-bin/search.cgi
> Pour s'inscire par courriel :
> 
> 'mailto:carrefourblinux-request at lists.freearchive.org?subject=subscribe'
> Pour se desinscrire par courriel :
> 
> 'mailto:carrefourblinux-request at lists.freearchive.org?subject=unsubscribe'
> 



Plus d'informations sur la liste de diffusion CarrefourBLinuX