← Writing

Extrae un pdf y procesa la información con CSV

October 10, 20244 min read

Extraer y procesar información de PDF a CSV (Con AI)

Oct 9, 2024

1. Objetivo:

Automatizar la extracción de información contenida en PDFs con eventos categorizados y exportarla en formato CSV, compatible con nuestra base de datos en Airtable, para integrarla fácilmente con otros procesos internos.

2. Herramientas Utilizadas:

3. Proceso de Extracción de Información:

Paso 1: Cargar el PDF

Cargamos un archivo PDF que contiene la información de eventos (en este caso, el archivo PMIS.pdf). El PDF puede contener texto directamente o imágenes con texto, por lo que se puede usar OCR para extraer la información de imágenes si es necesario.

Paso 2: Especificar las columnas deseadas

Para comenzar el proceso de extracción, se define una estructura básica de columnas. En este caso, solicitamos las siguientes columnas para generar el CSV:

Genera un CSV con toda la información de los eventos. Columnas a incluir:

- Dia de la semana
- Mes
- Titulo
- Horario
- Expositor
- Ubicación

Paso 3: Extracción de la información

El modelo extrae la información relevante del PDF y la organiza en las columnas solicitadas. Por ejemplo:

Dia de la semana Mes Titulo Horario Expositor Ubicación
Lunes Octubre Vinyasa Yoga 19:30 Cecilia Villarreal Explanada Verde
Martes Octubre Club de Literatura 19:00 Andrea Romero Salón Multiusos
Miércoles Octubre Meditación Guiada 19:30 Cynthia Reyes Pérez Explanada Verde

Paso 4: Agregar más información (Descripción y Sinópsis)

A continuación, solicitamos que se agreguen más detalles para enriquecer la información, como una sinopsis general y descripciones específicas por evento. Esto permite tener datos más útiles para quienes visualizan la información en Airtable u otros sistemas.

Prompt Utilizado:

Perfecto, ahora incluye dos columnas. Una donde coloques una sinópsis, son encuentros sin costo organizados por gobierno para la ciudadania. y la segunda colocas más información breve como una descripción adicional.

El resultado es una tabla enriquecida, con las siguientes columnas adicionales:

Dia de la semana Mes Titulo Horario Expositor Ubicación Sinópsis Descripción adicional
Lunes Octubre Vinyasa Yoga 19:30 Cecilia Villarreal Explanada Verde Encuentros sin costo organizados por el gobierno. Clase de yoga al aire libre con enfoque en Vinyasa.
Martes Octubre Club de Literatura 19:00 Andrea Romero Salón Multiusos Encuentros sin costo organizados por el gobierno. Reunión semanal para discutir literatura contemporánea.

Paso 5: Exportar a CSV

Finalmente, exportamos el archivo en formato CSV, que es compatible con Airtable, y otros sistemas que utilizan este formato para cargar datos.


4. Aplicaciones Prácticas:

Este proceso permite automatizar la carga de eventos, organizados de manera clara y estructurada, a una base de datos sin la intervención manual de copiar y pegar cada uno de los datos. Adicionalmente, se puede integrar la generación automática de descripciones y otros textos complementarios utilizando AI para proporcionar contexto adicional a los eventos.

5. Casos de Uso con Otros PDFs (Imágenes y Texto):

Este mismo proceso se puede replicar con otros tipos de archivos, como los mencionados en los ejemplos proporcionados:

Estos archivos pueden contener información categorizada que se puede extraer y estructurar usando el mismo procedimiento descrito anteriormente. Además, si los PDFs contienen imágenes con texto, se puede aplicar OCR para extraer ese texto antes de procesarlo.


6. Ventajas de este Proceso:

Este proceso de automatización puede ser reutilizado para diversos tipos de eventos, cursos o encuentros sin importar su origen, siempre que la información sea procesada en PDFs o imágenes que contengan texto estructurado.