Extraer y procesar información de PDF a CSV (Con AI)
Oct 9, 2024
1. Objetivo:
Automatizar la extracción de información contenida en PDFs con eventos categorizados y exportarla en formato CSV, compatible con nuestra base de datos en Airtable, para integrarla fácilmente con otros procesos internos.
2. Herramientas Utilizadas:
- ChatGPT 4.0: Para la interpretación y procesamiento del texto.
- OCR (Reconocimiento Óptico de Caracteres): Tecnología utilizada para extraer texto de imágenes dentro de los PDFs.
- Airtable: Base de datos para almacenar e integrar la información procesada desde los CSVs.
3. Proceso de Extracción de Información:
Paso 1: Cargar el PDF
Cargamos un archivo PDF que contiene la información de eventos (en este caso, el archivo PMIS.pdf). El PDF puede contener texto directamente o imágenes con texto, por lo que se puede usar OCR para extraer la información de imágenes si es necesario.
Paso 2: Especificar las columnas deseadas
Para comenzar el proceso de extracción, se define una estructura básica de columnas. En este caso, solicitamos las siguientes columnas para generar el CSV:
Genera un CSV con toda la información de los eventos. Columnas a incluir:
- Dia de la semana
- Mes
- Titulo
- Horario
- Expositor
- Ubicación
Paso 3: Extracción de la información
El modelo extrae la información relevante del PDF y la organiza en las columnas solicitadas. Por ejemplo:
Dia de la semana | Mes | Titulo | Horario | Expositor | Ubicación |
Lunes | Octubre | Vinyasa Yoga | 19:30 | Cecilia Villarreal | Explanada Verde |
Martes | Octubre | Club de Literatura | 19:00 | Andrea Romero | Salón Multiusos |
Miércoles | Octubre | Meditación Guiada | 19:30 | Cynthia Reyes Pérez | Explanada Verde |
Paso 4: Agregar más información (Descripción y Sinópsis)
A continuación, solicitamos que se agreguen más detalles para enriquecer la información, como una sinopsis general y descripciones específicas por evento. Esto permite tener datos más útiles para quienes visualizan la información en Airtable u otros sistemas.
Prompt Utilizado:
Perfecto, ahora incluye dos columnas. Una donde coloques una sinópsis, son encuentros sin costo organizados por gobierno para la ciudadania. y la segunda colocas más información breve como una descripción adicional.
El resultado es una tabla enriquecida, con las siguientes columnas adicionales:
Dia de la semana | Mes | Titulo | Horario | Expositor | Ubicación | Sinópsis | Descripción adicional |
Lunes | Octubre | Vinyasa Yoga | 19:30 | Cecilia Villarreal | Explanada Verde | Encuentros sin costo organizados por el gobierno. | Clase de yoga al aire libre con enfoque en Vinyasa. |
Martes | Octubre | Club de Literatura | 19:00 | Andrea Romero | Salón Multiusos | Encuentros sin costo organizados por el gobierno. | Reunión semanal para discutir literatura contemporánea. |
Paso 5: Exportar a CSV
Finalmente, exportamos el archivo en formato CSV, que es compatible con Airtable, y otros sistemas que utilizan este formato para cargar datos.
4. Aplicaciones Prácticas:
Este proceso permite automatizar la carga de eventos, organizados de manera clara y estructurada, a una base de datos sin la intervención manual de copiar y pegar cada uno de los datos. Adicionalmente, se puede integrar la generación automática de descripciones y otros textos complementarios utilizando AI para proporcionar contexto adicional a los eventos.
5. Casos de Uso con Otros PDFs (Imágenes y Texto):
Este mismo proceso se puede replicar con otros tipos de archivos, como los mencionados en los ejemplos proporcionados:
Estos archivos pueden contener información categorizada que se puede extraer y estructurar usando el mismo procedimiento descrito anteriormente. Además, si los PDFs contienen imágenes con texto, se puede aplicar OCR para extraer ese texto antes de procesarlo.
6. Ventajas de este Proceso:
- Ahorro de tiempo al evitar el procesamiento manual de documentos.
- Estandarización de la información en un formato compatible con Airtable.
- Flexibilidad para añadir o modificar columnas y detalles de forma dinámica.
Este proceso de automatización puede ser reutilizado para diversos tipos de eventos, cursos o encuentros sin importar su origen, siempre que la información sea procesada en PDFs o imágenes que contengan texto estructurado.