[Précédent (date)] [Suivant (date)] [Précédent (sujet)] [Suivant (sujet)] [Index par date] [Index par sujet]
Re: PDF...
- To:
- Subject: Re: PDF...
- From: R.Ouellette <>
- Date: Sat, 23 Mar 2002 23:32:46 -0500 (EST)
-
In-reply-to: <[email protected]>
C'est effectivement ce qu'il y a de mieux à faire.
Normalement le texte est bien extrait sauf s'il s'agit de polices
de type 3. Un fichier pdf n'est que du Postscript compressé avec
un en-tête modifié; comme le fichier est compressé avec un
algorythme du genre zip on ne peut pas l'éditer.
Si la police utilisée n'est pas vectorielle, donc de type 1 ou
encore ttf, elle sera dite de type 3 et sera transformée en pixels
pour devenir une police matricielle. Alors là il n'y a rien à
faire pour extraire le texte. Cela arrive lorsqu'on crée un pdf
avec des polices trop exotiques ttf, les polices de qualité de
type 1 sont toujours préférables.
Pour revenir au problème original, si même le texte ne peut être
extrait parce qu'il s'agit de polices matricielles (lorsqu'on liste les polices avec Acrobat, type 3 est indiqué; ou encore xpdf ne peut pas les lire), on peut toujours ouvrir un pdf avec gimp (oui, oui, vous avez bien lu, avec gimp !).
Il est ensuite possible de changer les couleurs tout simplement comme on édite une image. Le plus rapide : conversion en tons de
gris et inversion négative viendront à bout d'un texte blanc sur
un fond bleu. Le seul hic, 40 pages avec gimp c'est beaucoup et c'est gourmand en mémoire...
Alors on peut séparer le document pdf en quelques tranches avec gv (Ghostview) ou ggv. Ouvrir le document, un clic du bouton
droit à côté des pages à sauvegarder, puis fichier -> enregistrer
les pages marquées -> donner un nom qui se termine par .ps car le
résultat sera un fichier Postscript. Les tranches Postscript
peuvent être ouvertes dans gimp. On peut imprimer facilement du
Postscript (avec gv, ggv, xpp, etc...) et on peut même l'insérer
dans un document LyX ou même le reconvertir en pdf avec ps2pdf.
Il y a toujours des solutions ;-)