Skip to the content.

Datos faltantes y valores atípicos

El manejo de datos faltantes y atípicos (outliers) es una parte fundamental de la limpieza de datos, una etapa que consume aproximadamente el 80% del tiempo en proyectos de minería de datos. No existe una única solución “correcta”, ya que la efectividad depende del contexto del problema y del dominio de los datos.

A continuación, se detallan las estrategias más efectivas según el tipo de problema:

1. Manejo de Datos Faltantes

Existen diversos enfoques, desde los más simples hasta los más sofisticados:

2. Manejo de Datos Atípicos (Outliers) y Ruidosos

Para suavizar los datos y reducir el impacto de valores extremos que puedan sesgar el modelo, se sugieren:

Conclusión sobre la efectividad: La forma más efectiva suele ser el enfoque predictivo para datos faltantes, siempre que se valide que no se están reforzando correlaciones artificiales. Para los datos atípicos, el uso de la mediana en técnicas de binning o el uso de clustering para detectar y eliminar ruido son las estrategias más robustas mencionadas.


Analogía: Manejar datos faltantes o atípicos es como restaurar una pintura antigua: puedes dejar los huecos vacíos (ignorar), pintarlos de un solo color plano (usar constantes), o intentar deducir qué colores iban ahí observando el resto de la obra (predicción por modelos). La última opción es la más compleja, pero es la que mejor preserva la armonía de la imagen final.


La decisión sobre cómo tratar datos faltantes y valores atípicos debe considerar siempre el impacto potencial sobre el sesgo y la representatividad del conjunto de datos.