Trouver des liens et leurs positions dans un file PDF

J'ai besoin de find tous les liens dans un file PDF, avec la page sur laquelle ils sont et leur position X / Y. Y a-t-il un outil ou une combinaison d'outils que je peux utiliser pour le faire?

Je n'ai pas entendu parler d'un seul outil qui pourrait vous indiquer les coordonnées d'un text ou d'un lien dans un file pdf . Il est même un peu difficile à imaginer, comment cela pourrait être fait de manière fiable – je suppose que l'outil devrait soit calculer la geometry de tout le text dans le document (probablement une modification d'une bibliothèque de rendu pdf standard comme poppler serait nécessaire pour cela) ou sinon baser son estimation sur un outil d'automation X fonctionnant au sumt d'une visionneuse pdf.

Ce que vous pouvez faire sans trop d'efforts est grep pour les liens dans un file PDF non crypté et non compressé. Voici quelques exemples de searchs grep vous pouvez utiliser:

 grep -ao "http://[[:print:]]*" TheFile.pdf grep -ao "http://[[:alnum:]./]*" TheFile.pdf grep -ao "http://[^ ']*" TheFile.pdf grep -ao "URI(http://.*[^\])" TheFile.pdf 

Le dernier devrait être le plus proche de quels liens peuvent être trouvés en lisant le file. Pourtant, vous devrez probablement travailler un peu sur ces expressions rationnelles pour extraire les liens que vous voulez vraiment d'un certain document.

Si le document est compressé ou crypté, vous devriez d'abord en extraire une version simple. Utilisez pdftk ou un outil similaire pour faire cela.