Minería de Datos #1

JAYWRKR
5 min readMay 5, 2019

Descripción de la data, tipos de atributos, valores faltantes y valores inexactos, métodos de imputación y repositorios de datos públicos.

Descripción de la Data

  • Instancias: elemento atómico de información proveniente de un set de data. Conocido también como records, prototipos o ejemplos.
  • Atributos: medidas de aspectos de una instancia. Conocido también como características o variables. Cada instancia esta compuesta de un cierto número de atributos.
  • Conceptos: contenido especial dentro de los datos. Es una descripción del concepto inteligible y operacional.

Tipos de atributos

  • Atributos Numéricos: dominio de valor real o valor entero.

No solo ordenados sino medidos en unidades fijas e iguales.
Atributo “temperatura” expresado en grados o atributo “año”.

  • Atributos Categóricos: dominio de valor establecido compuesto por un conjunto de símbolos.

Cada valor es un símbolo distinto. Los valores en si sirven solo como etiquetas o nombres. Atribuir “clima” a partir de datos meteorológicos con valores: “soleado”, “nublado” y “lluvioso”.

Otros tipos de atributos

Atributos ordinales
Atributos categóricos con un orden impuesto sobre los valores.
Por ejemplo, el atributo “temperatura” en los datos meteorológicos.
“caliente” > “suave” > “fresco”.

Atributos de relación
Atributos numéricos para los cuales el esquema de medición define un punto cero.

Atributos binarios
Representado por solo dos valores 0/1.

Ejemplos

  • Categórico: genero, raza, color de ojos.
  • Ordinal: nivel de educación.
  • Cuantitativo: edad, peso, altura.
  • Sequencial: edad, altura, peso.
  • Divergente: temperatura, altitud.
  • Cíclico: horas, semana.

Tipos de Data Set

Data almacenada y recolectada en diferentes estructuras dependiendo del tipo de atributos. Pueden ser data sets estáticos o dinámicos dependiendo si cambian o no con el tiempo.

Valores Faltantes

Existen debido a equipo defectuoso, mediciones incorrectas, datos faltantes en la entrada de datos manual, datos censurados / anónimos.

Frecuentemente indicado por valores especiales como 0 o NaN. El valor faltante puede tener significado en sí mismo como valor faltante en algunos casos como una prueba faltante en un examen médico.

¿Qué tipos de valores faltantes?

  • Falta completamente al azar (MCAR)
    La distribución de un ejemplo que tiene un valor faltante para un atributo no depende de ya sea los datos observados o los datos faltantes
    Ejemplo: algunas preguntas de la encuesta contienen una muestra aleatoria de todo el cuestionario.
  • Falta al azar (MAR)
    La distribución de un ejemplo que tiene un valor faltante para un atributo depende de los datos observados, pero no depende de los datos faltantes.
    Por ejemplo, las personas que no declaran su salario no por la cantidad sino simplemente porque no quieren hacerlo.
  • No falta al azar (NMAR)
    La distribución de un ejemplo que tiene un valor faltante depende de los valores que faltan. Por ejemplo, los encuestados con ingresos altos tienen menos probabilidades de reportar ingresos.

Notar que NMAR y MAR pueden ser difíciles de identificar y que a menudo requieren conocimiento del dominio.

Tratar con los valores faltantes
Use lo que sabe y analice por qué faltan datos. Revise la distribución de los datos faltantes y proceda a un método de eliminación (eliminación por lista, eliminación por pares) o estime los valores por medio de imputación (sustitución media / modo, método de variable ficticia, regresión simple) o con métodos basados ​​en modelos (probabilidad máxima, imputación múltiple).

Estrategias para el manejo de valores faltantes

  • Descartando todos los ejemplos con valores faltantes: enfoque más sencillo. Permite el uso de métodos de minería de datos no modificados. Sólo es práctico si hay pocos ejemplos con valores faltantes.
  • Rellene el valor perdido manualmente: convertir los valores faltantes en un nuevo valor. Utilizar un valor especial para ello o agregue un atributo que indique si falta un valor o no. Aumenta enormemente la dificultad del proceso de extracción de datos.
  • Métodos de imputación: asignar un valor al que falta, basado en el resto del conjunto de datos. Utilizar los métodos de minería de datos no modificados.

Eliminación por lista (análisis de caso completo)

Solo analizar casos con datos disponibles en cada variable. Simple, pero reduce los datos.

Eliminación por pares (análisis de caso disponible)

Análisis con todos los casos en que las variables de interés estén presentes.
Como ventaja mantiene tantos casos como posible para cada análisis y utiliza toda la información posible con cada análisis. Como desventaja no se pueden comparar los análisis porque las muestras son diferentes cada vez.

Métodos de imputación

Extraer un modelo del conjunto de datos para realizar la imputación.

  • Sustitución de la media / modo (valor más común): reemplace el valor faltante por la media o el modo de la muestra. Puede utilizar métodos completos de análisis de casos pero reduce la variabilidad.
  • Control de variable ficticia: crear un indicador para el valor faltante (1 = falta el valor para la observación, 0 = se observa un valor para la observación). Se utiliza toda la información disponible sobre la observación faltante pero esto da como resultado estimaciones sesgadas, no teóricas.
  • Imputación de regresión
    Reemplaza valores perdidos con puntaje predicho de una ecuación de regresión.

No imputar (DNI)
Simplemente use la política predeterminada del método de minería de datos. Funciona solo si la política existe.

Valores inexactos

  • Errores y omisiones que no afectan el propósito original de los datos.
    (por ejemplo, la edad del cliente) o errores tipográficos en atributos nominales.
  • Errores tipográficos y de medición en atributos numéricos, por lo tanto, los valores atípicos deben identificarse
  • Los errores pueden ser deliberados (por ejemplo, códigos postales incorrectos)

Repositorios de Datos

--

--

Empoderando personas.. Creativo Digital.. Emprendedor.. Activista.. Ingeniero.. Productor… Inversor.. https://jaywrkr.com