Est-ce que l'printing d'un PDF en PDF dégrade sa qualité?

Disons que j'ai un PDF d'un site Web qui est très long. Après en avoir lu une partie, je décide qu'il y a des pages étrangères; mais plutôt que de find le site Web chaque fois que je décide d'éliminer une page, je veux l'imprimer au format PDF et ne pas sélectionner cette page pour imprimer (en utilisant CUPS-PDF). Cela nuira-t-il à la qualité du PDF, surtout si je le fais plusieurs fois? Y a-t-il une meilleure façon d'atteindre ce que je search? J'ai essayé PDFEdit, avec des résultats mitigés, et je voudrais quelque chose de plus fiable. Bien sûr, je peux toujours revenir sur le site et save une nouvelle version, en utilisant la même technique de négliger ces pages que je ne veux pas.

En principe, il est possible d'imprimer un PDF à travers une string de programmes qui se termine par une génération PDF sans perte de qualité.

Deux choses majeures doivent arriver pour garantir une conversion perceptible sans perte:

  1. Chaque maillon de la string doit comprendre tous les éléments du document et être capable de les transmettre au prochain élément de la string sans perte:

    • Si le document contient des fonts incorporées, la police doit également être installée quelque part dans l'éditeur PDF pour qu'il puisse être réembedded ou que la police incorporée soit en quelque sorte transmise à travers la string.

    • Si le document contient des applets embeddedes – JavaScript, Flash, Postscript … – ils doivent être transmis sans modification.

    • Si le document contient des hyperliens, des formulaires actifs, des calques de text OCR, une numérotation de pages personnalisée, un marquage non imprimé, des commentaires, des métadonnées, etc., toutes les pièces de la string doivent savoir transmettre ces données à l'auteur.

    • Si le document contient des tailles de page mixtes, les programmes de la string doivent également être capables de ce tour.

  2. Aucun lien dans la string ne peut réinterpréter datatables qui la traversent. Il est courant dans les strings PDF que les images soient rééchantillonnées et converties en formats avec pertes plus efficaces, par exemple. Même si les images de votre PDF d'origine sont déjà de faible résolution-JPEG DPI, les pièces de la string peuvent choisir un DPI différent ou avoir un réglage de niveau de compression différent.

    (En fait, le simple fait qu'il y ait un JPEG sur l'une ou l'autre des extrémités de la string PDF-to-PDF signifie que la string n'est pas sans perte, à less que datatables JPEG brutes ne soient transmises telles quelles, il est possible qu'une étape de recompression soit perceptuellement sans perte. Cela ne se produit pas toujours, cependant, parfois à dessein.)

Jusqu'à présent, je n'ai considéré que la qualité perceptuelle. Il est possible d'get une conversion perceptible sans perte mais de perdre la possibilité de modification ou de finir avec un file sensiblement plus volumineux:

  • Un document PDF contenant du text créé à partir d'une source primaire (c'est-à-dire non une numérisation ou une conversion à partir d'un autre format de présentation de document) contient habituellement datatables de text et de police qui permettent au lecteur PDF de dessiner le text à l'écran de la même manière qu'un traitement de text.

    Il est possible de transformer un tel text en raster 2D ou en art vectoriel d'une manière perceptible sans perte. PDF vous permet même de préserver la search et l'accessibilité du lecteur d'écran en utilisant des couches de text OCR non imprimantes. Cependant, une telle conversion augmenterait la taille du file et rendrait l'édition beaucoup plus difficile.

  • L'art vectoriel peut être pixellisé, en utilisant DPI égal ou un multiple pair du DPI d'printing / visualisation.

  • La string pourrait convertir tous les files JPEG en files TIFF, afin de ne perdre absolument aucune qualité d'image.

  • La string pourrait impliquer JPEG en JPEG, sans changement DPI, mais utiliser un réglage de qualité fixe élevé afin d'éviter de créer des artefacts perceptibles.

Pour votre cas simple, supprimer une page, il est assez facile d'get une garantie sans perte, si vous utilisez un programme qui comprend suffisamment le format de file PDF pour simplement éluder datatables de la page. Ceci est complètement faisable, puisque les pages en PDF sont plus ou less autonomes. Il s'agit juste de find un outil qui en sait assez sur la variante PDF particulière dans laquelle vos files existants sont encodés. PDF est un format de file très complexe, il est donc courant que les programmes prétendant supporter le format PDF ne disposent que d'un support partiel. Il se peut qu'il n'y ait qu'un seul programme qui comprenne vraiment 100% du PDF: Adobe Acrobat Pro. Cela ne me surprendrait pas d'apprendre que chaque autre programme traitant de PDF est en train de parler d'un sous-set.

En bout de ligne, je ne m'attendrais pas à une string PDF-via-print-from-PDF pour donner de telles garanties de qualité. Il y a trop de possibilités d'interprétation et d'intermédiation.

Si je comprends bien votre objective principal, vous n'avez pas besoin de passer par n'importe quel tracas avec l'printing au format PDF. Vous pouvez utiliser un outil de command line comme pdftk pour extraire un set de pages directement à partir d'un file PDF et les save comme un nouveau. (Il permet également de nombreuses autres opérations comme l'optimization, l'ajout / suppression de mot de passe, la rotation de certaines pages, etc.) L'outil est disponible dans les repositorys de packages de (probablement) toutes les dissortingbutions Linux de bureau.

L'opération principale de pdftk vous utiliseriez est cat . Cela fonctionne assez intuitivement, par exemple:

 pdftk input_file.pdf cat 3-23 50-end output output_file.pdf 

va créer un file output_file.pdf composé des pages 3 à 23 et 50 jusqu'à la fin du file original input_file.pdf . Regardez dans l' man pdftk pour plus d'exemples (à la fin du manuel).

En général, non, la perte de qualité ne devrait pas se produire. Si c'est le cas, le programme est à blâmer, pas le format. Certaines choses qui pourraient se produire pourraient être interprétées comme une perte de qualité:

  • Les images peuvent être recomprimées (ce qui peut entraîner une perte de génération)
  • Le text (et d'autres vectors) peuvent être transformés en splines, ce qui peut entraîner des problèmes d'utilisation (incapacité de copyr du text), etc.

Je n'ai jamais utilisé CUPS-PDF ou PDFEdit , donc ce ne sont que des suppositions sur ce qui peut se produire, c'est-à-dire, je ne sais pas s'il est probable qu'ils le feront ou non.