En proyectos de inteligencia artificial, la calidad del modelo depende de cómo se preparan los datos antes del entrenamiento. El informe explica cómo usar SQL para convertir registros operativos de ventas en un dataset consistente, con una fila por cliente y variables listas para análisis predictivo.
Auto: Elisa Belmar
Datos operativos y unidad del dataset
El punto de partida es una tabla de ventas organizada por eventos: cada fila registra una transacción con cliente, producto, fecha y monto. Esa estructura sirve para operar un sistema, pero no alcanza para entrenar modelos de IA, porque no describe clientes completos sino fragmentos de actividad.
El Informe marca una diferencia central entre dato y dataset: el dato registra lo que ocurrió, el dataset reorganiza esa información para responder una pregunta analítica. En este caso, la unidad elegida es el cliente. Esa decisión ordena todo el proceso, porque obliga a que cada columna describa el comportamiento de una persona y no una venta aislada. Por eso, campos como monto o producto_id deben transformarse en variables agregadas, como total_gastado, cantidad_compras, ticket_promedio o categorias_distintas.

El resultado muestra varias filas. Cada una aporta información, pero ninguna resume el comportamiento completo. Para entender qué hace ese cliente, hay que leer varias filas y combinar mentalmente la información. Ese esfuerzo de reconstrucción es exactamente lo que un modelo de inteligencia artificial no hace por sí solo.
SQL como herramienta de construcción
El Informe muestra que SQL no solo sirve para consultar información, sino también para construir una base utilizable. Primero se integran datos de distintas tablas, como ventas y productos, mediante JOIN, para sumarle un contexto a cada operación. Luego se aplican filtros básicos para descartar registros con montos inválidos o fechas nulas. Esa base intermedia, llamada base_ventas, funciona como zona de preparación: no es todavía el dataset final, pero reúne información muy buena información. A partir de allí, SQL permite condensar múltiples ventas en una sola fila por cliente mediante GROUP BY y funciones como SUM, COUNT, AVG, MAX y COUNT DISTINCT. El resultado deja de ser una lista de transacciones y se convierte en una representación del comportamiento de compra.

En este Informe USERS trabajaremos con una decisión concreta: el dataset final tendrá una fila por cliente. A partir de aquí, todas las consultas deberán respetar esa lógica. Si en algún punto mezclamos filas por venta con filas por cliente, el dataset quedará confuso, aunque la consulta se ejecute sin errores. SQL simplemente nos va a devolver una tabla incoherente.
Variable objetivo y validación del data set
Para que el dataset sirva en IA supervisada, el Informe introduce la variable objetivo: la columna que el modelo intentará predecir. En el ejemplo, se busca anticipar si un cliente volverá a comprar en el próximo período.
Para evitar contaminación de datos, se fija una fecha de corte: lo ocurrido antes se usa para construir variables y lo ocurrido después define la respuesta. Así se crea comprara_proximo_mes, con valor 1 (uno) si hubo compra futura y 0 (cero) si no la hubo. Luego se consolida todo en dataset_clientes_ia y se validan filas, duplicados, valores nulos y distribución de la variable objetivo.
La idea central es que un modelo no corrige una mala preparación: aprende exactamente de la estructura que recibe.

El resultado deja de mostrar ventas individuales y empieza a mostrar clientes. Cada fila representa una entidad distinta, y cada columna aporta una señal sobre su actividad.
Encuentra la versión completa de la publicación en la que se basa este resumen, con todos los detalles técnicos en RedUSERS PREMIUM
También te puede interesar:
PIPELINE DE IA CON PYTHON Y PREFECT
Este Informe explica cómo construir pipelines de inteligencia artificial con Python y Prefect, pasando de scripts aislados a flujos automatizados capaces de ejecutarse solos, manejar errores y generar resultados útiles de forma periódica.

Lee todo lo que quieras, donde vayas, contenidos exclusivos por una mínima cuota mensual. Solo en RedUSERS PREMIUM: SUSCRIBETE!



