Limpieza de datos con IA — Lo que antes tardó un día, ahora tarda 10 minutos
Objetivo del tema
Aprenderás a usar IA para detectar, diagnosticar y corregir los 7 problemas más comunes de calidad de datos en Excel, reduciendo drásticamente el tiempo de limpieza y construyendo pipelines de validación que previenen que los errores vuelvan a entrar en tus archivos.
La trampa del “ya sé limpiar datos”
Si limpias datos manualmente en Excel — buscando celdas vacías, usando Buscar y Reemplazar, eliminando duplicados uno a uno — estás haciendo el trabajo que debería hacer la IA. Peor aún: lo haces más lento y con más errores.
La limpieza manual es el mayor desperdicio de tiempo en el trabajo con datos. El promedio en empresas LATAM: un analista dedica entre 3 y 6 horas semanales a limpiar datos. Con IA, eso se reduce a menos de 30 minutos.
Los 7 problemas que la IA detecta y corrige automáticamente
1. Nombres inconsistentes
“Bogotá”, “bogota”, “BOGOTA”, “Bogotá D.C.” — cuatro versiones del mismo valor. Prompt:
“Revisa la columna Ciudad de este dataset y lista todas las variaciones distintas del mismo nombre. Luego dame una fórmula para estandarizarlas.”
2. Fechas en formatos mixtos
“15/03/2024”, “March 15, 2024”, “2024-03-15” — tres formatos en la misma columna. Prompt:
“Esta columna de fechas tiene formatos inconsistentes. Dame una fórmula de Excel que convierta todos los valores al formato DD/MM/AAAA.”
3. Números guardados como texto
El problema invisible que arruina todas tus sumas. La IA identifica qué celdas son el problema y da la solución exacta en segundos.
4. Duplicados inteligentes
No solo filas idénticas — duplicados “casi iguales” con espacios extras o tildes diferentes. Prompt:
“Analiza esta lista de clientes y detecta posibles duplicados que no sean exactamente iguales (variaciones de nombre, espacios extras, mayúsculas). Dame un reporte de los casos sospechosos.”
5. Valores atípicos (outliers)
“Revisa la columna Monto de Venta y detecta valores que podrían ser errores de captura (demasiado altos o bajos comparados con el promedio). Lista los casos sospechosos con el contexto de la fila.”
6. Celdas vacías con impacto oculto
No todas las celdas vacías son iguales. La IA distingue entre vacíos que son cero, vacíos que son “no aplica” y vacíos que son datos faltantes reales — y recomienda qué hacer con cada tipo.
7. Estructuras que no son tablas
Datos pegados desde PDFs, reportes con celdas combinadas, totales insertados entre filas. Prompt:
“Este dataset tiene totales intermedios cada 5 filas y celdas combinadas en los encabezados. Dime paso a paso cómo limpiarlo para convertirlo en una tabla plana lista para análisis.”
El flujo de limpieza con IA (3 pasos que todo analista debe memorizar)
- Diagnóstico: Sube el archivo a Claude o ChatGPT y pide: “Haz un diagnóstico de calidad de datos. Lista todos los problemas que encuentres, ordena por impacto.”
- Corrección: Para cada problema, pide la solución específica: fórmula, script de Power Query, o pasos manuales
- Prevención: “Genera reglas de validación en Excel para que estos errores no puedan volver a entrar en el archivo.”
Power Query + IA: la combinación definitiva para datos recurrentes
Para datos que llegan cada semana o cada mes, la combinación ganadora es: usa IA para diseñar el proceso de limpieza una vez, y Power Query para ejecutarlo automáticamente cada vez que llegan datos nuevos. Un clic. Sin tocar nada. Este flujo lo dominaremos en profundidad en el Módulo 4.
