CRISP-DM, Una metodología para proyectos de Minería de Datos

Una metodología para proyectos de minería de datos no es la “más actual” o “la mejor”, pero es muy útil para comprender esta tecnología o extraer ideas para diseñar o revisar métodos de trabajo para proyectos de similares características


Para implementar una tecnología en un negocio, se requiere de una metodología.  La mayoría de las consultoras especializadas en alguna tecnología cuentan, con por lo menos, una metodología, según los tipos de proyectos que aborden.  Estos métodos son definidos a partir de sus experiencias y tomando lo mejor de los procedimientos más exitosos o populares.  Contar con una metodología, se ha convertido tan importante y necesario como la carta de presentación de las empresas.

Para los diferentes tipos de tecnologías, hay varias metodologías, algunas están publicadas en Internet.  Para el caso de proyectos de implementación de minería de datos, hay una en particular; CRISP-DM, en sus primeros años de divulgación tenía apoyos de empresas privadas y organismos públicos, pero poco a poco ha ido perdiendo uno que otro “Project Partner”.  Desconocemos el motivo de esta aparente perdida de apoyo, pero estamos seguros que no corresponde a la falta de calidad o efectividad del método, porque ha sido adoptado por otros organismos y empresas.

 Metodologia para Mineria de Datos - CRISP-DM

El estándar incluye un modelo y una guía, estructurados en seis fases, algunas de estas fases son bidireccionales, lo que significa que algunas fases permitirán revisar parcial o totalmente las fases anteriores.

Comprensión del negocio (Objetivos y requerimientos desde una perspectiva no técnica)

  • Establecimiento de los objetivos del negocio (Contexto inicial, objetivos, criterios de éxito)
  • Evaluación de la situación (Inventario de recursos, requerimientos, supuestos, terminologías propias del negocio,…)
  • Establecimiento de los objetivos de la minería de datos (objetivos y criterios de éxito)
  • Generación del plan del proyecto (plan, herramientas, equipo y técnicas)

Comprensión de los datos (Familiarizarse con los datos teniendo presente los objetivos del negocio)

  • Recopilación inicial de datos
  • Descripción de los datos
  • Exploración de los datos
  • Verificación de calidad de datos

Preparación de los datos (Obtener la vista minable o dataset)

  • Selección de los datos
  • Limpieza de datos
  • Construcción de datos
  • Integración de datos
  • Formateo de datos

Modelado (Aplicar las técnicas de minería de datos a los dataset)

  • Selección de la técnica de modelado
  • Diseño de la evaluación
  • Construcción del modelo
  • Evaluación del modelo

Evaluación (De los modelos de la fase anteriores para determinar si son útiles a las necesidades del negocio)

  • Evaluación de resultados
  • Revisar el proceso
  • Establecimiento de los siguientes pasos o acciones

Despliegue (Explotar utilidad de los modelos, integrándolos en las tareas de toma de decisiones de la organización)

  • Planificación de despliegue
  • Planificación de la monitorización y del mantenimiento
  • Generación de informe final
  • Revisión del proyecto

 

Esta metodología para proyectos de minería de datos no es la “más actual” o “la mejor”, pero es muy útil para comprender esta tecnología o extraer ideas para diseñar o revisar métodos de trabajo para proyectos de similares características.

aníbal goicochea

Minería de Datos, ¿Lo necesito?

Sugerencia para evaluar la posibilidad de poner en marcha un proyecto de minería de datos


Pasado el temporal, se analiza y se concluye, que si se hubiera hecho un mejor uso de la información, muchas organizaciones hubieran podido gestionar mejor la situación.  En este sentido, el Business Intelligence y un poco más, la minería de datos (data mining), han tomado más protagonismo en los últimos meses, hay más personas que indagan sobre estas dos tecnologías y la Web aumenta en definiciones y conceptos.  Si nos tuviéramos que quedar con una definición de minería de datos, optaríamos por la que dice lo siguiente: “Proceso para extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos, almacenados en distintos formatos”.

Minería de datos = Extraer conocimiento de grandes cantidades de datos

Implementar ¿si?, ¿no?,… me lo estoy pensando…

La pregunta que algunos se estarán formulando es si deberían contemplar el desarrollo de un proyecto de minería de datos en su empresa.  Los beneficios que se describen son muy interesantes y atractivos, pero como en toda tecnología, si existen beneficios para implementarla, también habrá inconvenientes y costes.  Al final, se trata de identificar si la suma de beneficios será superior al total de costes.

¿Implementar? = Necesidades del negocio + Beneficios Esperados – Coste personal – Coste materiales

¿Por donde comenzamos?

Un buen inicio para evaluar la utilidad de contar con una solución de minería de datos es identificando la serie de necesidades del negocio que podrían ser cubiertas.  Viene bien recordar una expresión relacionada a este asunto: “la necesidad debe crear el programa y no el programa debe crear la necesidad”.  Ejemplos de necesidades de negocio:

  • Identificar razones de subidas de consumo
  • Señalar motivos bajadas de las ventas
  • Adecuar producción a ventas futuras
  • Determinar tendencias del mercado
  • Evaluar tendencias de comportamiento de la competencia
  • Reducir listas de espera

Objetivos del negocio vs. Objetivos de la aplicación

La identificación de las necesidades del negocio permitirá identificar los objetivos del negocio, las que no necesariamente serán las funciones de la aplicación a implementar.  Por ejemplo, identificar las probabilidades de compra de un segmento de cliente bajo ciertas variables, es una tarea de la aplicación de minería de datos a desarrollar.  Lograr una respuesta del 10% en un determinado segmento corresponde a un objetivo de negocio, que se logrará, según las acciones que se tomen y quizás la información que brinde la aplicación sea determinante.

Minería de datos dirigida y no dirigida

Tener los objetivos de negocio presente en el desarrollo del proyecto, permitirá desglosarlo e identificar las tareas de minería de datos necesarias para contribuir a su logro.  Saber a priori lo que se va a realizar y que modelos se van obtener se denomina minería de datos dirigida (model-driven).

El modelo no dirigido, partiendo sólo de los datos (data-driven) consiste en obtener patrones, que a medida que se van “descubriendo” se estime si pueden ser útiles para resolver algunas necesidades del negocio.  Este método es más abierto y arriesgado, porque en muchos casos, algunos modelos encontrados serán descartados porque no solventarán ninguna necesidad del negocio.

Para una fase inicial de un proyecto de minería de datos, se recomienda el modelo dirigido, en una fase posterior, cuando se cuente con una mayor maduración tanto de la aplicación implementada como del equipo de colaboradores a cargo, se podría probar el modelo no dirigido.

Resumiendo, la sugerencia para evaluar la posibilidad de poner en marcha un proyecto de minería de datos sería: Identificar necesidades, sopesar beneficios vs. costos, señalar objetivos del negocio y determinar las tareas de la minería de datos que se desarrollarían (model – driven).

aníbal goicochea

MicroStrategy, una plataforma BI, más atractiva

MicroStrategy, una plataforma BI, más atractiva para los usuarios y las empresas que requieren reforzar sus propuestas de Business Intelligence


MicroStrategy, la plataforma de Business Intelligence, en su última versión, presenta varias novedades para acceder a los datos y elaborar más vistosos informes y cuadros de mando.  Con la inclusión de más elementos gráficos y plantillas, aumenta las posibilidades de desarrollar herramientas de análisis de la información, en menos tiempo y con mejores resultados.

La Versión 9 ha puesto más atractiva a MicroStrategy, y no lo decimos los seguidores de este software de BI, sino consultoras internacionales de prestigio, como Gartner, referentes en la valoración de productos y servicios en el sector de las tecnologías de la información, que la posicionan en el cuadrante de las empresas líderes.

Gartner - Magic Quadrant for Business Intelligence Platforms Report

MicroStrategy no tan sólo es una suite de productos de Business Intelligence atractiva para los usuarios, sino también para otras empresas que requieren reforzar sus propuestas de productos de BI.  Todo es posible, pero una adquisición implicaría un gran esfuerzo por ambas partes, para que en el proceso de integración el usuario no se vea afectado y el valor que reciba sea mayor.

Después de la adquisición de SPSS por parte de IBM, percibimos cierta tensión en el sector del BI.  No somos unos expertos en bolsa, pero que la cotización de MicroStrategy genere esta imagen, aumentan nuestras sospechas.

MicroStrategy Cotizacion
Fuente: es.finance.yahoo.com

Nos gusta contar con una propuesta «independiente«, si se produjera un proceso de compra, esperemos que sea en beneficio de los usuarios.  Mientras tanto seguimos con nuestros deberes, hemos publicado la última sesión de la formación «Introducción a MicroStrategy (Sesión 4/4)».

aníbal goicochea

Business Intelligence, su día y sus noches

Una plataforma de Business Intelligence, en su día (el de la presentación) y sus noches (de olvido y poco uso)


“Estamos barajando la posibilidad de relanzar la plataforma de Business Intelligence (BI) en nuestra empresa,…”.  Escuchar una expresión similar a la anterior, en los primeros instantes, resulta muy alentadora.  Pero luego, cuestionas la situación y te gustaría tener respuestas a preguntas tales como ¿Qué sucedió con la plataforma de BI, para que ahora requiera ser relanzada?

Pongamos en antecedentes (El día)

Llega el día de la presentación de la nueva solución, la que ayudará al usuario final a “tomar mejores decisiones”, ahora ya no tiene importancia que el proyecto culmine con algunos “mesecillos” de retraso, total, era la “primera vez” que se veía un caso “tal” con el software “cual”.  Todos los protagonistas, están reunidos en la sala más especial de la organización, expectantes, mirando las imágenes que emite el modernísimo proyector.  Unas palabras del “Manager” del área y otras del “Senior Manager” del Proyecto y comienza la “demo”.  La pantalla se llena de listados, cuadros, gráficas, con abundantes colores y más efectos especiales; el «Consultant» a cargo de la demostración, formula algunos comentarios, pero sus palabras se ahogan con las expresiones de satisfacción de los usuarios, sencillamente, «están encantados con la solución».

Las dos caras que puede tener una plataforma de Business Intelligence

Busque instrumentos que faciliten la participación de los usuarios, de este modo,contribuirán a la maduración y consolidación de la plataforma BI

Pasaron los días… No lo usan… Tengo una idea, Hay que relanzarlo!!!

Si la solución es la correcta y se ajusta mucho a las necesidades de gestión del usuario, ¿Por qué, al cabo de un tiempo, tiene un uso menos de lo esperado?

Considero que una plataforma de Business Intelligence (Inteligencia de negocios, Sistema Decisional, Conocimiento estratégico,…; los nombres, como los colores, infinitos matices), es un elemento vivo e inteligente; que se alimenta, constantemente, del conocimiento y experiencias de sus usuarios.

La máxima o eslogan, que tiene un producto de planificación presupuestaria que conozco, dice algo así como “Implementado por IT y gestionado por los usuarios del negocio”, creo que esta expresión es totalmente aplicable a una plataforma de BI, pensar que siempre “sabemos lo que el usuario necesita”, ofreciéndole únicamente, por ejemplo, una batería de informes, es limitar sus contribuciones en beneficio de la evolución de la plataforma.

Sugerencia

El desarrollo de una plataforma de Business Intelligence debería considerar la implementación de instrumentos que fomenten la participación de los usuarios, el intercambio de impresiones, comentarios y facilidades para crear o sugerir nuevos informes, métricas o indicadores.  Estos mecanismos ayudarán a aumentar el sentimiento de pertenencia, dinamismo, uso y contribuirán a la maduración y consolidación de la solución.

Estas facilidades, desde el punto de vista técnico, deberían ir complementadas por una definición de políticas de uso, mapas de responsabilidad, un sistema de seguridad basado en perfiles, un sistema de distribución de la información y por su puesto, por una adecuada formación, no tan solo técnica, sino también funcional, debemos estar seguros que el usuario conoce lo que tiene que medir/controlar, en función de la unidad de negocios en la que colabora.

aníbal goicochea

Nueva York, ¿Camino a tener un Gobierno 2.0?

Iniciativas del gobierno de la ciudad de Nueva York para mantener informado al ciudadano: Cuadros de mandos, Web y geolocalización


El deseo de saber lo que está ocurriendo a nuestro alrededor o la necesidad de estar informado de la evolución de algún trámite que se halla iniciado; parece haberse incrementado con el desarrollo de las Tecnologías de la Información.  Al menos eso es lo que se  percibe en la sociedad de los Estados Unidos, según un artículo del periódico USA Today.

Seguro que para satisfacer la necesidad de información que tiene el ciudadano y en un gran ejercicio de transparencia, creo, sin precedentes,  el gobierno de la Ciudad de Nueva York, informa en una Web, sobre la evolución de los principales indicadores de su gestión.  Para este fin, se ha diseñado una batería de informes (Reporting) donde combina listados de datos con elementos gráficos, similares a los que se utiliza en los cuadros de mando.

nycreporting

Esta no es la primera herramienta que ha diseñado el gobierno de la Ciudad de Nueva York para informar al ciudadano; esta heramienta de Business Intelligence en la Web, complementa a otra aplicación donde el usuario puede conocer la ubicación geográfica de las quejas o reclamaciones similares a las que podría estar formulando.

Referencia: Blog Sociedad en Red

aníbal goicochea