[CBLX] docx: impossibilité de lire...

Tarik Fdil tfdil at sagma.ma
Mer 6 Fév 08:42:56 CET 2008


Salut Aldo,

Voici un script qui fait le travail de manière automatique :

vi -E $1 << FIN 
1,\$s/<[^>]*>/\r/g
1,\$g/^$/d
w
q
FIN
echo fichier docx conerti

Tu lui passes le nom du fichier docx en paramètre. Le script appelle vi avec 
l'option -E pour qu'il passe automatiquement en mode commande. On redirige  
l'entrée standard de vi vers le script en cours.

Pour ce qui est des phrases collées les unes aux autres, oui car tu utilises 
lynx en forçant le html. Or le html ne connaît pas les retours chariot (\r) 
que j'ai mis dans le script. Donc il colle toutes les lignes. Donc soit tu 
enlèves l'option --force de lynx soit dans le script tu transformes le \r en 
<br>, le retour chariot de html. 

Cordialement
Tarik


Le mercredi 6 février 2008 07:06, vous avez écrit :
> ----- Original Message -----
> From: "Osvaldo La Rosa" <olr-noreply at ael.be>
> To: "Carrefour BLinux francophone, pour les non- et mal-voyants."
> <carrefourblinux at lists.freearchive.org>
> Sent: Tuesday, February 05, 2008 8:26 PM
> Subject: Re: [CBLX] docx: impossibilité de lire...
>
> > Bonsoir Tarik,
> >
> > On Sat, Feb 02, 2008 at 09:51:51AM -0000, Tarik Fdil wrote:
> >> Salut Aldo,
> >>
> >> Dans le répertoire word obtenu après unzip, tu trouveras un fichier
> >> nommé document.xml. C'est ce fichier qui contient les données utiles du
> >> document
> >> structuré en XML. Tu ouvres ce fichier avec l'éditeur vi
> >
> > C'est ce que j'ai fait.
> >
> >>et tu exécutes les
> >>
> >> deux commandes suivantes :
> >> :1,$s/<[^>]*>/\r/g
> >> :1,$g/^$/d
> >
> > C'est ce que j'ai fait également.
> >
> > Puis j'ai sauvé; et si je lance par ex. lynx -force_html document.xml j'y
> > lis un texte sans codes mais dont les paragraphes sont liés, genre:
> >
> > Ceci est une première phraseVoici la secondeEt je poursuis par la
> > troisièmeJe termine enfin par une quatrième phrase.
> >
> > Plus étonnant est que si je veux un peu automatiser cela, avec les
> > commandes suivantes j'obtiens un résultat identique:
> > unzip -p src.docx word/document.xml |o3totxt >out.txt && lynx out.txt
> >
> > Y a-t-il sinon moyen avec vi de faire l'operation d'un seul trait depuis
> > la ligne de commande ? serait-ce via l'option -c ou --cmd ?
> >
> > Aldo.
> >
> > _______________________________________________
> > Liste de diffusion CarrefourBLinuX
> >    CarrefourBLinuX at lists.freearchive.org
> >    http://lists.freearchive.org/mailman/listinfo/carrefourblinux
> > Fiches EDU : http://blinuxwiki.pbwiki.com/FichesEdu
> > Signets : http://fr.groups.yahoo.com/group/carrefourblinux/links/
> > Archives : http://lists.freearchive.org/pipermail//carrefourblinux
> > Anciennes archives (Yahoogroupes) :
> >    http://fr.groups.yahoo.com/group/carrefourblinux/messages
> > Rechercher : http://lists.freearchive.org/cgi-bin/search.cgi
> > Pour s'inscire par courriel :
> >
> > 'mailto:carrefourblinux-request at lists.freearchive.org?subject=subscribe'
> > Pour se desinscrire par courriel :
> >
> > 'mailto:carrefourblinux-request at lists.freearchive.org?subject=unsubscribe
> >'
-------------- section suivante --------------
vi -E $1 << FIN 
1,\$s/<[^>]*>/\r/g
1,\$g/^$/d
w
q
FIN
echo fichier docx conerti



Plus d'informations sur la liste de diffusion CarrefourBLinuX