Archivo diario: 11 agosto, 2009

CRISP-DM, Una metodología para proyectos de Minería de Datos


Para implementar una tecnología en un negocio, se requiere de una metodología.  La mayoría de las consultoras especializadas en alguna tecnología cuentan, con por lo menos, una metodología, según los tipos de proyectos que aborden.  Estos métodos son definidos a partir de sus experiencias y tomando lo mejor de los procedimientos más exitosos o populares.  Contar con una metodología, se ha convertido tan importante y necesario como la carta de presentación de las empresas.

Para los diferentes tipos de tecnologías, hay varias metodologías, algunas están publicadas en Internet.  Para el caso de proyectos de implementación de minería de datos, hay una en particular; CRISP-DM, en sus primeros años de divulgación tenía apoyos de empresas privadas y organismos públicos, pero poco a poco ha ido perdiendo uno que otro “Project Partner”.  Desconocemos el motivo de esta aparente perdida de apoyo, pero estamos seguros que no corresponde a la falta de calidad o efectividad del método, porque ha sido adoptado por otros organismos y empresas.

 Metodologia para Mineria de Datos - CRISP-DM

El estándar incluye un modelo y una guía, estructurados en seis fases, algunas de estas fases son bidireccionales, lo que significa que algunas fases permitirán revisar parcial o totalmente las fases anteriores.

Comprensión del negocio (Objetivos y requerimientos desde una perspectiva no técnica)

  • Establecimiento de los objetivos del negocio (Contexto inicial, objetivos, criterios de éxito)
  • Evaluación de la situación (Inventario de recursos, requerimientos, supuestos, terminologías propias del negocio,…)
  • Establecimiento de los objetivos de la minería de datos (objetivos y criterios de éxito)
  • Generación del plan del proyecto (plan, herramientas, equipo y técnicas)

Comprensión de los datos (Familiarizarse con los datos teniendo presente los objetivos del negocio)

  • Recopilación inicial de datos
  • Descripción de los datos
  • Exploración de los datos
  • Verificación de calidad de datos

Preparación de los datos (Obtener la vista minable o dataset)

  • Selección de los datos
  • Limpieza de datos
  • Construcción de datos
  • Integración de datos
  • Formateo de datos

Modelado (Aplicar las técnicas de minería de datos a los dataset)

  • Selección de la técnica de modelado
  • Diseño de la evaluación
  • Construcción del modelo
  • Evaluación del modelo

Evaluación (De los modelos de la fase anteriores para determinar si son útiles a las necesidades del negocio)

  • Evaluación de resultados
  • Revisar el proceso
  • Establecimiento de los siguientes pasos o acciones

Despliegue (Explotar utilidad de los modelos, integrándolos en las tareas de toma de decisiones de la organización)

  • Planificación de despliegue
  • Planificación de la monitorización y del mantenimiento
  • Generación de informe final
  • Revisión del proyecto

 

Esta metodología para proyectos de minería de datos no es la “más actual” o “la mejor”, pero es muy útil para comprender esta tecnología o extraer ideas para diseñar o revisar métodos de trabajo para proyectos de similares características.

aníbal goicochea

Anuncios