Skip to the content.

I. La Importancia de la Visualización

II. El Proceso de Ciencia de Datos y Minería

El tiempo dedicado a las diferentes partes del proceso de minería de datos, señalando que el aprendizaje automático (Machine Learning, ML) es solo una pequeña porción del contexto más amplio, a menudo llamado Ciencia de Datos o Minería de Datos.

III. Fundamentos de los Datos y Tipos Estadísticos

Dado que el algoritmo y la arquitectura del modelo dependen del tipo de datos (discreto frente a continuo), es esencial comprender la naturaleza de los datos.

Los tipos de datos estadísticos, que se centran en la escala de medición, a diferencia de los tipos de datos en informática que se centran en el almacenamiento (strings, integers). La pregunta clave es si las operaciones son significativas en el contexto de la aplicación.

  1. Datos Nominales (Categóricos sin orden):
    • Valores sin orden o clasificación intrínseca (ej. color, género, ID único, compañías de automóviles).
    • Operaciones significativas: igual y no igual.
    • Una ordenación puede imponerse (ej. color por valor RGB), pero no es nominal si dicha ordenación no es significativa para la aplicación.
  2. Datos Ordinales (Categóricos con orden):
    • Valores que pueden ser ordenados, pero las diferencias relativas entre ellos no son comparables o cuantificables de manera significativa (ej. situación ruidosa/tranquila, grados escolares, hábitos de fumar: regular, a veces, pesado).
    • Operaciones significativas: igual, no igual, menor o mayor.
    • El hecho de que los datos ordinales puedan ser mapeados a números (ej. 0, 1, 2, 3) no los convierte en numéricos; siguen siendo ordinales si las operaciones numéricas (como la media o la diferencia) no son significativas.
  3. Datos Numéricos (Cuantitativos):
    • Valores en los que las operaciones numéricas (calcular diferencias, promedios, ratios) son significativas (ej. altura de edificios, edad, tiempo de carrera).

IV. Estructuras y Tipos de Datos Complejos

Los datos rara vez son escalares (un solo valor); usualmente vienen en estructuras más complejas.

V. Pre-procesamiento de Datos (Data Pre-processing)

El pre-procesamiento es un paso de preparación para el modelado, asegurando que los datos sean consistentes, completos y útiles. Los pasos incluyen la limpieza, la normalización y la estandarización.

1. Manejo de Valores Faltantes (Missing Values)

Los valores faltantes ocurren por fallas de sensores, campos opcionales, pérdida de datos en la transmisión, o capacidades de almacenamiento limitadas.

2. Manejo de Datos Ruidosos (Noisy Data)

Los datos ruidosos contienen errores aleatorios o valores atípicos que no reflejan los valores verdaderos.