Si necesitas extraer todo el texto de un archivo PDF, por muy largo que sea, lo tienes fácil.
Para ello vamos a seguir los siguientes pasos:
1.- Instala la librería: poppler-utils
En Debian, Ubuntu o derivados;
sudo apt install poppler-utils
En Arch, Manjaro o derivados:
sudo pacman -S poppler-utils
En Fedora o derivados:
sudo dnf install poppler-utils
2.- Una vez instalada, simplemente usamos el comando con el que vamos a extraer el texto. Dicho comando es pdftotext
Pongamos un ejemplo:
pdftotext -layout ARCHIVO.pdf TEXTO.txt
¿Fácil y útil, verdad?
_____________________
Fuente: Ubunlog.com
Muyyyy interesante
ResponderEliminarMuchas gracias por leer el blog.
Eliminar