Il pacchetto poppler-utils
di Ubuntu contiene alcuni programmi utili che permettono di operare con i PDF.
sudo apt-get install poppler-utils
Il comando pdftotext estrae il testo da un file pdf.
Si usa nel seguente modo:
pdftotext [opzioni] nomedocumento.pdf nometesto.txt
nel caso di pdf protetto da password:
pdftotext -upw 'password' nomedocumento.pdf nometesto.txt
Il comando pdftohtml funziona in modo del tutto analogo.
pdftohtml [opzioni] nomedocumento.pdf nome.html
per visualizzare correttamente il documento nel browser dobbiamo però aggiungere manualmente una riga prima di </head> :
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
Se vogliamo soltanto estrarre le immagini possiamo usare il comando pdfimages
pdfimages [opzioni] nomedocumento.pdf radice_immagini
Come impostazione predefinita le immagini sono salvate in formato PPM o PBM. Specificando l’opzione “-j” sarà invece usato il formato JPEG per le immagini colorate.
Infine i comandi pdfinfo
e pdffonts
visualizzano rispettivamente le informazioni complete sul documento e l’elenco dei font utilizzati. Il secondo è molto utile quando convertiamo un pdf in testo e vogliamo ricostruirne la formattazione originaria.