Extrae un pdf y procesa la información con CSV

Extrae un pdf y procesa la información con CSV

Extraer y procesar información de PDF a CSV (Con AI)

Oct 9, 2024

image

1. Objetivo:

Automatizar la extracción de información contenida en PDFs con eventos categorizados y exportarla en formato CSV, compatible con nuestra base de datos en Airtable, para integrarla fácilmente con otros procesos internos.

2. Herramientas Utilizadas:

  • ChatGPT 4.0: Para la interpretación y procesamiento del texto.
  • OCR (Reconocimiento Óptico de Caracteres): Tecnología utilizada para extraer texto de imágenes dentro de los PDFs.
  • Airtable: Base de datos para almacenar e integrar la información procesada desde los CSVs.

3. Proceso de Extracción de Información:

Paso 1: Cargar el PDF

Cargamos un archivo PDF que contiene la información de eventos (en este caso, el archivo PMIS.pdf). El PDF puede contener texto directamente o imágenes con texto, por lo que se puede usar OCR para extraer la información de imágenes si es necesario.

Paso 2: Especificar las columnas deseadas

Para comenzar el proceso de extracción, se define una estructura básica de columnas. En este caso, solicitamos las siguientes columnas para generar el CSV:

Genera un CSV con toda la información de los eventos. Columnas a incluir:

- Dia de la semana
- Mes
- Titulo
- Horario
- Expositor
- Ubicación

Paso 3: Extracción de la información

El modelo extrae la información relevante del PDF y la organiza en las columnas solicitadas. Por ejemplo:

Dia de la semana
Mes
Titulo
Horario
Expositor
Ubicación
Lunes
Octubre
Vinyasa Yoga
19:30
Cecilia Villarreal
Explanada Verde
Martes
Octubre
Club de Literatura
19:00
Andrea Romero
Salón Multiusos
Miércoles
Octubre
Meditación Guiada
19:30
Cynthia Reyes Pérez
Explanada Verde

Paso 4: Agregar más información (Descripción y Sinópsis)

A continuación, solicitamos que se agreguen más detalles para enriquecer la información, como una sinopsis general y descripciones específicas por evento. Esto permite tener datos más útiles para quienes visualizan la información en Airtable u otros sistemas.

Prompt Utilizado:

Perfecto, ahora incluye dos columnas. Una donde coloques una sinópsis, son encuentros sin costo organizados por gobierno para la ciudadania. y la segunda colocas más información breve como una descripción adicional.

El resultado es una tabla enriquecida, con las siguientes columnas adicionales:

Dia de la semana
Mes
Titulo
Horario
Expositor
Ubicación
Sinópsis
Descripción adicional
Lunes
Octubre
Vinyasa Yoga
19:30
Cecilia Villarreal
Explanada Verde
Encuentros sin costo organizados por el gobierno.
Clase de yoga al aire libre con enfoque en Vinyasa.
Martes
Octubre
Club de Literatura
19:00
Andrea Romero
Salón Multiusos
Encuentros sin costo organizados por el gobierno.
Reunión semanal para discutir literatura contemporánea.

Paso 5: Exportar a CSV

Finalmente, exportamos el archivo en formato CSV, que es compatible con Airtable, y otros sistemas que utilizan este formato para cargar datos.

4. Aplicaciones Prácticas:

Este proceso permite automatizar la carga de eventos, organizados de manera clara y estructurada, a una base de datos sin la intervención manual de copiar y pegar cada uno de los datos. Adicionalmente, se puede integrar la generación automática de descripciones y otros textos complementarios utilizando AI para proporcionar contexto adicional a los eventos.

5. Casos de Uso con Otros PDFs (Imágenes y Texto):

Este mismo proceso se puede replicar con otros tipos de archivos, como los mencionados en los ejemplos proporcionados:

Estos archivos pueden contener información categorizada que se puede extraer y estructurar usando el mismo procedimiento descrito anteriormente. Además, si los PDFs contienen imágenes con texto, se puede aplicar OCR para extraer ese texto antes de procesarlo.

6. Ventajas de este Proceso:

  • Ahorro de tiempo al evitar el procesamiento manual de documentos.
  • Estandarización de la información en un formato compatible con Airtable.
  • Flexibilidad para añadir o modificar columnas y detalles de forma dinámica.

Este proceso de automatización puede ser reutilizado para diversos tipos de eventos, cursos o encuentros sin importar su origen, siempre que la información sea procesada en PDFs o imágenes que contengan texto estructurado.