Quantcast
Channel: Dan80's Linux » guide
Viewing all articles
Browse latest Browse all 10

Ubuntu: convertire PDF in testo o html, estrarre le immagini

$
0
0

Il pacchetto poppler-utils di Ubuntu contiene alcuni programmi utili che permettono di operare con i PDF.

sudo apt-get install poppler-utils

Il comando pdftotext estrae il testo da un file pdf.
Si usa nel seguente modo:

pdftotext [opzioni] nomedocumento.pdf nometesto.txt

nel caso di pdf protetto da password:

pdftotext -upw 'password' nomedocumento.pdf nometesto.txt

Il comando pdftohtml funziona in modo del tutto analogo.

pdftohtml [opzioni] nomedocumento.pdf nome.html

per visualizzare correttamente il documento nel browser dobbiamo però aggiungere manualmente una riga prima di </head> :

<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

Se vogliamo soltanto estrarre le immagini possiamo usare il comando pdfimages

pdfimages [opzioni] nomedocumento.pdf radice_immagini

Come impostazione predefinita le immagini sono salvate in formato PPM o PBM. Specificando l’opzione “-j” sarà invece usato il formato JPEG per le immagini colorate.

Infine i comandi pdfinfo e pdffonts visualizzano rispettivamente le informazioni complete sul documento e l’elenco dei font utilizzati. Il secondo è molto utile quando convertiamo un pdf in testo e vogliamo ricostruirne la formattazione originaria.



Viewing all articles
Browse latest Browse all 10

Latest Images

Trending Articles