martes, 5 de diciembre de 2023

Extraer texto de un archivo PDF.

 


Si necesitas extraer todo el texto de un archivo PDF, por muy largo que sea, lo tienes fácil.

Para ello vamos a seguir los siguientes pasos:

1.- Instala la librería: poppler-utils

En Debian, Ubuntu o derivados;

sudo apt install poppler-utils


En Arch, Manjaro o derivados:

sudo pacman -S poppler-utils


En Fedora o derivados:

sudo dnf install poppler-utils


2.- Una vez instalada, simplemente usamos el comando con el que vamos a extraer el texto. Dicho comando es pdftotext

Pongamos un ejemplo:

pdftotext -layout ARCHIVO.pdf TEXTO.txt



¿Fácil y útil, verdad?



_____________________
Fuente: Ubunlog.com
 

2 comentarios: