Skip to the content.

1. Regresión (Regression)

La regresión es el proceso de ajustar una función a los datos con el objetivo de revelar patrones, tendencias o la estructura subyacente. En el contexto de la limpieza de datos, se utiliza para suavizar la información y manejar el ruido inherente a las mediciones de la vida real.

2. Manejo de Ruido y Agrupamiento (Clustering)

El agrupamiento (clustering) ayuda a identificar grupos y valores atípicos.

3. Datos Inconsistentes y Calidad de Datos

Los datos inconsistentes son aquellos que no tienen sentido lógico o semántico, son incompatibles o les faltan valores.

4. Normalización y Estandarización

Ambas técnicas son importantes, especialmente para ejecutar modelos de machine learning.

5. Muestreo (Sampling)

El muestreo se utiliza para seleccionar un subconjunto de datos.

6. Remuestreo e Interpolación

Se usan para estimar valores desconocidos o faltantes.

7. Reducción de Dimensionalidad

Se trata de reducir un espacio de datos de alta dimensión a una dimensión baja.