[CBLX] docx: impossibilité de lire...
Osvaldo La Rosa
olr-noreply at ael.be
Mar 5 Fév 21:26:00 CET 2008
Bonsoir Tarik,
On Sat, Feb 02, 2008 at 09:51:51AM -0000, Tarik Fdil wrote:
> Salut Aldo,
>
> Dans le répertoire word obtenu après unzip, tu trouveras un fichier nommé
> document.xml. C'est ce fichier qui contient les données utiles du document
> structuré en XML. Tu ouvres ce fichier avec l'éditeur vi
C'est ce que j'ai fait.
>et tu exécutes les
> deux commandes suivantes :
>
> :1,$s/<[^>]*>/\r/g
> :1,$g/^$/d
C'est ce que j'ai fait également.
Puis j'ai sauvé; et si je lance par ex. lynx -force_html document.xml j'y
lis un texte sans codes mais dont les paragraphes sont liés, genre:
Ceci est une première phraseVoici la secondeEt je poursuis par la
troisièmeJe termine enfin par une quatrième phrase.
Plus étonnant est que si je veux un peu automatiser cela, avec les
commandes suivantes j'obtiens un résultat identique:
unzip -p src.docx word/document.xml |o3totxt >out.txt && lynx out.txt
Y a-t-il sinon moyen avec vi de faire l'operation d'un seul trait depuis
la ligne de commande ? serait-ce via l'option -c ou --cmd ?
Aldo.
Plus d'informations sur la liste de diffusion CarrefourBLinuX