J'ai besoin de find tous les liens dans un file PDF, avec la page sur laquelle ils sont et leur position X / Y. Y a-t-il un outil ou une combinaison d'outils que je peux utiliser pour le faire?
Je n'ai pas entendu parler d'un seul outil qui pourrait vous indiquer les coordonnées d'un text ou d'un lien dans un file pdf . Il est même un peu difficile à imaginer, comment cela pourrait être fait de manière fiable – je suppose que l'outil devrait soit calculer la geometry de tout le text dans le document (probablement une modification d'une bibliothèque de rendu pdf standard comme poppler
serait nécessaire pour cela) ou sinon baser son estimation sur un outil d'automation X fonctionnant au sumt d'une visionneuse pdf.
Ce que vous pouvez faire sans trop d'efforts est grep pour les liens dans un file PDF non crypté et non compressé. Voici quelques exemples de searchs grep
vous pouvez utiliser:
grep -ao "http://[[:print:]]*" TheFile.pdf grep -ao "http://[[:alnum:]./]*" TheFile.pdf grep -ao "http://[^ ']*" TheFile.pdf grep -ao "URI(http://.*[^\])" TheFile.pdf
Le dernier devrait être le plus proche de quels liens peuvent être trouvés en lisant le file. Pourtant, vous devrez probablement travailler un peu sur ces expressions rationnelles pour extraire les liens que vous voulez vraiment d'un certain document.
Si le document est compressé ou crypté, vous devriez d'abord en extraire une version simple. Utilisez pdftk
ou un outil similaire pour faire cela.