CRISP-DM, Una metodología para proyectos de Minería de Datos

Una metodología para proyectos de minería de datos no es la “más actual” o “la mejor”, pero es muy útil para comprender esta tecnología o extraer ideas para diseñar o revisar métodos de trabajo para proyectos de similares características


Para implementar una tecnología en un negocio, se requiere de una metodología.  La mayoría de las consultoras especializadas en alguna tecnología cuentan, con por lo menos, una metodología, según los tipos de proyectos que aborden.  Estos métodos son definidos a partir de sus experiencias y tomando lo mejor de los procedimientos más exitosos o populares.  Contar con una metodología, se ha convertido tan importante y necesario como la carta de presentación de las empresas.

Para los diferentes tipos de tecnologías, hay varias metodologías, algunas están publicadas en Internet.  Para el caso de proyectos de implementación de minería de datos, hay una en particular; CRISP-DM, en sus primeros años de divulgación tenía apoyos de empresas privadas y organismos públicos, pero poco a poco ha ido perdiendo uno que otro “Project Partner”.  Desconocemos el motivo de esta aparente perdida de apoyo, pero estamos seguros que no corresponde a la falta de calidad o efectividad del método, porque ha sido adoptado por otros organismos y empresas.

 Metodologia para Mineria de Datos - CRISP-DM

El estándar incluye un modelo y una guía, estructurados en seis fases, algunas de estas fases son bidireccionales, lo que significa que algunas fases permitirán revisar parcial o totalmente las fases anteriores.

Comprensión del negocio (Objetivos y requerimientos desde una perspectiva no técnica)

  • Establecimiento de los objetivos del negocio (Contexto inicial, objetivos, criterios de éxito)
  • Evaluación de la situación (Inventario de recursos, requerimientos, supuestos, terminologías propias del negocio,…)
  • Establecimiento de los objetivos de la minería de datos (objetivos y criterios de éxito)
  • Generación del plan del proyecto (plan, herramientas, equipo y técnicas)

Comprensión de los datos (Familiarizarse con los datos teniendo presente los objetivos del negocio)

  • Recopilación inicial de datos
  • Descripción de los datos
  • Exploración de los datos
  • Verificación de calidad de datos

Preparación de los datos (Obtener la vista minable o dataset)

  • Selección de los datos
  • Limpieza de datos
  • Construcción de datos
  • Integración de datos
  • Formateo de datos

Modelado (Aplicar las técnicas de minería de datos a los dataset)

  • Selección de la técnica de modelado
  • Diseño de la evaluación
  • Construcción del modelo
  • Evaluación del modelo

Evaluación (De los modelos de la fase anteriores para determinar si son útiles a las necesidades del negocio)

  • Evaluación de resultados
  • Revisar el proceso
  • Establecimiento de los siguientes pasos o acciones

Despliegue (Explotar utilidad de los modelos, integrándolos en las tareas de toma de decisiones de la organización)

  • Planificación de despliegue
  • Planificación de la monitorización y del mantenimiento
  • Generación de informe final
  • Revisión del proyecto

 

Esta metodología para proyectos de minería de datos no es la “más actual” o “la mejor”, pero es muy útil para comprender esta tecnología o extraer ideas para diseñar o revisar métodos de trabajo para proyectos de similares características.

aníbal goicochea

Minería de Datos, ¿Lo necesito?

Sugerencia para evaluar la posibilidad de poner en marcha un proyecto de minería de datos


Pasado el temporal, se analiza y se concluye, que si se hubiera hecho un mejor uso de la información, muchas organizaciones hubieran podido gestionar mejor la situación.  En este sentido, el Business Intelligence y un poco más, la minería de datos (data mining), han tomado más protagonismo en los últimos meses, hay más personas que indagan sobre estas dos tecnologías y la Web aumenta en definiciones y conceptos.  Si nos tuviéramos que quedar con una definición de minería de datos, optaríamos por la que dice lo siguiente: “Proceso para extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos, almacenados en distintos formatos”.

Minería de datos = Extraer conocimiento de grandes cantidades de datos

Implementar ¿si?, ¿no?,… me lo estoy pensando…

La pregunta que algunos se estarán formulando es si deberían contemplar el desarrollo de un proyecto de minería de datos en su empresa.  Los beneficios que se describen son muy interesantes y atractivos, pero como en toda tecnología, si existen beneficios para implementarla, también habrá inconvenientes y costes.  Al final, se trata de identificar si la suma de beneficios será superior al total de costes.

¿Implementar? = Necesidades del negocio + Beneficios Esperados – Coste personal – Coste materiales

¿Por donde comenzamos?

Un buen inicio para evaluar la utilidad de contar con una solución de minería de datos es identificando la serie de necesidades del negocio que podrían ser cubiertas.  Viene bien recordar una expresión relacionada a este asunto: “la necesidad debe crear el programa y no el programa debe crear la necesidad”.  Ejemplos de necesidades de negocio:

  • Identificar razones de subidas de consumo
  • Señalar motivos bajadas de las ventas
  • Adecuar producción a ventas futuras
  • Determinar tendencias del mercado
  • Evaluar tendencias de comportamiento de la competencia
  • Reducir listas de espera

Objetivos del negocio vs. Objetivos de la aplicación

La identificación de las necesidades del negocio permitirá identificar los objetivos del negocio, las que no necesariamente serán las funciones de la aplicación a implementar.  Por ejemplo, identificar las probabilidades de compra de un segmento de cliente bajo ciertas variables, es una tarea de la aplicación de minería de datos a desarrollar.  Lograr una respuesta del 10% en un determinado segmento corresponde a un objetivo de negocio, que se logrará, según las acciones que se tomen y quizás la información que brinde la aplicación sea determinante.

Minería de datos dirigida y no dirigida

Tener los objetivos de negocio presente en el desarrollo del proyecto, permitirá desglosarlo e identificar las tareas de minería de datos necesarias para contribuir a su logro.  Saber a priori lo que se va a realizar y que modelos se van obtener se denomina minería de datos dirigida (model-driven).

El modelo no dirigido, partiendo sólo de los datos (data-driven) consiste en obtener patrones, que a medida que se van “descubriendo” se estime si pueden ser útiles para resolver algunas necesidades del negocio.  Este método es más abierto y arriesgado, porque en muchos casos, algunos modelos encontrados serán descartados porque no solventarán ninguna necesidad del negocio.

Para una fase inicial de un proyecto de minería de datos, se recomienda el modelo dirigido, en una fase posterior, cuando se cuente con una mayor maduración tanto de la aplicación implementada como del equipo de colaboradores a cargo, se podría probar el modelo no dirigido.

Resumiendo, la sugerencia para evaluar la posibilidad de poner en marcha un proyecto de minería de datos sería: Identificar necesidades, sopesar beneficios vs. costos, señalar objetivos del negocio y determinar las tareas de la minería de datos que se desarrollarían (model – driven).

aníbal goicochea

Web 2.0, ¿Es necesario un uso responsable?

Analizando la creación y uso de hashtags como virales, su uso indiscriminado, mellan la credibilidad de la Web 2.0???


Algunos de los que hemos descubierto, no hace mucho tiempo, el poder y potencial de la Web 2.0, hacemos un uso lento y progresivo de los medios que nos ofrece, con cuidado y algo de temor, cual si fuera juguete nuevo, el soñado, no vaya ser que se “rompa”.

Explorando, como ocasionalmente lo hago, en los blogs de los denominados  referentes 2.0, encontré un tema que había estado en «debate» a raíz de la mala experiencia de uno de los protagonistas con una línea área.  Le asignaron al tema en cuestión, para mi humilde parecer, un hashtag (marca o etiqueta clave para facilitar su búsqueda) poco creativo y algo malsonante, el cual fue utilizado para “taggear” (marcar para clasificar) algunos twetts (micro mensajes) en Twitter.
Un Hashtags Ejemplar

Estoy totalmente de acuerdo que muchas empresas prestan pésimos servicios, aprovechándose de la situación de “clientes cautivos” en la que, en ocasiones, muchos nos encontramos, sin más alternativas por elegir.  Pero si algunas empresas proceden de este modo, es porque los gobiernos u organismos responsables no están cumpliendo una de sus principales obligaciones, controlar y hacer respetar los derechos del consumidor.

Muchas veces se ha dicho, que Internet y la Web 2.0, nos brindan muchas facilidades para “levantar nuestra voz de protesta”. Considero que este uso, se debe hacer de una forma responsable, la aparente ausencia de reglas, no debe ser motivo para estar creando “virales” que no apunten a nada.  Quizás más efectivo hubiera sido, que entre los usuarios de la comunidad, propusieran alternativas al servicio o dirigieran los mensajes de malestar a las autoridades o medios que ayudarán a ampliar el “ruido” de la protesta.  Porque, hasta donde tengo conocimiento, la empresa no ha mostrado, ni mostrará ninguna señal de mejoría o arrepentimiento.

Me parece que este tipo de “espontáneas iniciativas” mellan la credibilidad del medio y que no aportan mayor beneficio a la comunidad de usuarios, salvo el hecho anecdótico, que luego puede ser comentado en blogs o quizás, en alguna conferencia como una travesura que hicieron un grupo de colegas.

anibal goicochea

MicroStrategy, una plataforma BI, más atractiva

MicroStrategy, una plataforma BI, más atractiva para los usuarios y las empresas que requieren reforzar sus propuestas de Business Intelligence


MicroStrategy, la plataforma de Business Intelligence, en su última versión, presenta varias novedades para acceder a los datos y elaborar más vistosos informes y cuadros de mando.  Con la inclusión de más elementos gráficos y plantillas, aumenta las posibilidades de desarrollar herramientas de análisis de la información, en menos tiempo y con mejores resultados.

La Versión 9 ha puesto más atractiva a MicroStrategy, y no lo decimos los seguidores de este software de BI, sino consultoras internacionales de prestigio, como Gartner, referentes en la valoración de productos y servicios en el sector de las tecnologías de la información, que la posicionan en el cuadrante de las empresas líderes.

Gartner - Magic Quadrant for Business Intelligence Platforms Report

MicroStrategy no tan sólo es una suite de productos de Business Intelligence atractiva para los usuarios, sino también para otras empresas que requieren reforzar sus propuestas de productos de BI.  Todo es posible, pero una adquisición implicaría un gran esfuerzo por ambas partes, para que en el proceso de integración el usuario no se vea afectado y el valor que reciba sea mayor.

Después de la adquisición de SPSS por parte de IBM, percibimos cierta tensión en el sector del BI.  No somos unos expertos en bolsa, pero que la cotización de MicroStrategy genere esta imagen, aumentan nuestras sospechas.

MicroStrategy Cotizacion
Fuente: es.finance.yahoo.com

Nos gusta contar con una propuesta «independiente«, si se produjera un proceso de compra, esperemos que sea en beneficio de los usuarios.  Mientras tanto seguimos con nuestros deberes, hemos publicado la última sesión de la formación «Introducción a MicroStrategy (Sesión 4/4)».

aníbal goicochea

¿Qué pasa con Twitter?


Por momentos, como usuario del Chrome de Google recibo el mensaje “¡Vaya! Parece que este enlace está roto” cada vez que intento entrar a Twitter… he sentido cierta ansiedad al verme incomunicado, he corrido a probar en otros ordenadores y obtengo respuesta similares… Creo que no soy el único!!!

 Twitter y Ballena

Al parecer, el invento ha superado las expectativas de sus creadores, pienso que la infraestructura tecnológica no da abasto al incremento incesante de usuarios, twets, hangtags, followers y demás objetos que la filosofía Twitter ha puesto en nuestras vidas.

Cuantos «egos» se verían afectados, sin followers en sus vidas, sobre todo, después de haber superado el millar… y el esfuerzo que ha costado… Esperemos que la pesadilla sea pasajera y la herramienta pronto este sobre una plataforma más robusta.iconos-twitter

aníbal goicochea