Blog

Extrae un pdf y procesa la información con CSV

Rashid Azarang4 min de lectura
Extrae un pdf y procesa la información con CSV

Extrae un pdf y procesa la información con CSV

Extraer y procesar información de PDF a CSV (Con AI)

Oct 9, 2024

DALLE_2024-10-09_18.42.34_-_An_abstract_but_illustrative_image_representing_the_process_of_extracting_and_processing_information_from_PDFs_to_CSV_using_AI._The_image_includes_ico.webp

1. Objetivo:

Automatizar la extracción de información contenida en PDFs con eventos categorizados y exportarla en formato CSV, compatible con nuestra base de datos en Airtable, para integrarla fácilmente con otros procesos internos.

2. Herramientas Utilizadas:

  • ChatGPT 4.0: Para la interpretación y procesamiento del texto.
  • OCR (Reconocimiento Óptico de Caracteres): Tecnología utilizada para extraer texto de imágenes dentro de los PDFs.
  • Airtable: Base de datos para almacenar e integrar la información procesada desde los CSVs.

3. Proceso de Extracción de Información:

Paso 1: Cargar el PDF

Cargamos un archivo PDF que contiene la información de eventos (en este caso, el archivo PMIS.pdf). El PDF puede contener texto directamente o imágenes con texto, por lo que se puede usar OCR para extraer la información de imágenes si es necesario.

Paso 2: Especificar las columnas deseadas

Para comenzar el proceso de extracción, se define una estructura básica de columnas. En este caso, solicitamos las siguientes columnas para generar el CSV:

Genera un CSV con toda la información de los eventos. Columnas a incluir:

- Dia de la semana
- Mes
- Titulo
- Horario
- Expositor
- Ubicación

Paso 3: Extracción de la información

El modelo extrae la información relevante del PDF y la organiza en las columnas solicitadas. Por ejemplo:

Dia de la semanaMesTituloHorarioExpositorUbicación
LunesOctubreVinyasa Yoga19:30Cecilia VillarrealExplanada Verde
MartesOctubreClub de Literatura19:00Andrea RomeroSalón Multiusos
MiércolesOctubreMeditación Guiada19:30Cynthia Reyes PérezExplanada Verde

Paso 4: Agregar más información (Descripción y Sinópsis)

A continuación, solicitamos que se agreguen más detalles para enriquecer la información, como una sinopsis general y descripciones específicas por evento. Esto permite tener datos más útiles para quienes visualizan la información en Airtable u otros sistemas.

Prompt Utilizado:

Perfecto, ahora incluye dos columnas. Una donde coloques una sinópsis, son encuentros sin costo organizados por gobierno para la ciudadania. y la segunda colocas más información breve como una descripción adicional.

El resultado es una tabla enriquecida, con las siguientes columnas adicionales:

Dia de la semanaMesTituloHorarioExpositorUbicaciónSinópsisDescripción adicional
LunesOctubreVinyasa Yoga19:30Cecilia VillarrealExplanada VerdeEncuentros sin costo organizados por el gobierno.Clase de yoga al aire libre con enfoque en Vinyasa.
MartesOctubreClub de Literatura19:00Andrea RomeroSalón MultiusosEncuentros sin costo organizados por el gobierno.Reunión semanal para discutir literatura contemporánea.

Paso 5: Exportar a CSV

Finalmente, exportamos el archivo en formato CSV, que es compatible con Airtable, y otros sistemas que utilizan este formato para cargar datos.


4. Aplicaciones Prácticas:

Este proceso permite automatizar la carga de eventos, organizados de manera clara y estructurada, a una base de datos sin la intervención manual de copiar y pegar cada uno de los datos. Adicionalmente, se puede integrar la generación automática de descripciones y otros textos complementarios utilizando AI para proporcionar contexto adicional a los eventos.

5. Casos de Uso con Otros PDFs (Imágenes y Texto):

Este mismo proceso se puede replicar con otros tipos de archivos, como los mencionados en los ejemplos proporcionados:

Estos archivos pueden contener información categorizada que se puede extraer y estructurar usando el mismo procedimiento descrito anteriormente. Además, si los PDFs contienen imágenes con texto, se puede aplicar OCR para extraer ese texto antes de procesarlo.


6. Ventajas de este Proceso:

  • Ahorro de tiempo al evitar el procesamiento manual de documentos.
  • Estandarización de la información en un formato compatible con Airtable.
  • Flexibilidad para añadir o modificar columnas y detalles de forma dinámica.

Este proceso de automatización puede ser reutilizado para diversos tipos de eventos, cursos o encuentros sin importar su origen, siempre que la información sea procesada en PDFs o imágenes que contengan texto estructurado.

Más del blog