Archivo de la categoría: Minería de Datos

Dos interesantes temas en el último BI Beers

BIFácil comenta dos interesantes temas que se trataron en el último encuentro BI Beers, de blogueros de Business Intelligence: Minería de datos y  el Datawarehouse en vías de extinción.

DW, ¿hasta la vista baby?

Considero que la supuesta “amenaza” que se cierne sobre el Datwarehouse (DW), no es la “tecnología asociativa”, una de las principales fortalezas de productos como QlikView, que consiste en establecer relaciones entre dimensiones y atributos sin que necesariamente exista una relación jerárquica o física entre estos elementos en las fuentes de datos.

Considero que uno de los principales candidatos a ser una alternativa a los DW, a mediano o largo plazo, son productos que permitan construir capas semánticas que aglutinen a todas las fuentes de datos necesarias. Existen soluciones como Data Federator de SAP BusinessObjects que tienen este enfoque. Este tipo de soluciones que están en la categoría de Integradoras de Información (Enterprise Integration Information, no son soluciones ETL) complementadas con hardware especifico, pueden constituir una solución rápida y eficaz, comparable a un DW.

Minería de datos, ¿dónde estas que no te veo?

Es cierto, son muy pocos los casos conocidos, algunas entidades financieras y de seguros lo utilizan para clasificar a sus clientes y evaluar el riesgo, pero la realidad parece haber puesto en duda su efectividad.

Quizás su complejidad ha sido el principal motivo de su poco uso, al final, para muchos resultó ser una interesante asignatura en la etapa de formación.  Pero considero que las organizaciones no se han perdido de mucho, al final, las clasificaciones o el análisis predictivo, poco pueden hacer para “anticiparnos al futuro”, claro, salvo mejor opinión.

El Cisne Negro en el BI (V Parte) y la Gestión Inteligente del Riesgo (GRC++)

Debemos reconocer nuestras pocas habilidades para vaticinar el futuro y considerar que técnicas como la minería de datos o lo estadística, sólo nos brindará una instantánea de una situación determinada, cuya validez se limita a un espacio de tiempo muy reducido, porque el comportamiento humano y otras tantas variables que conforman cualquier modelo, no obedecen a modelos matemáticos o tendencias duraderas, sino al libre albedrío.  La coyuntura actual y la triste extinción de muchas organizaciones es la prueba de ello.

Creemos que anticiparse al futuro, no es preocuparse en el “cuándo”, sino más bien en el “cómo”, y esta línea la disciplina que se perfila como la más idónea, a nuestro parecer, es el GRC (Governance, Risk management, and Compliance), la cual no debe ser vista como una “herramienta” para facilitar el cumplimiento de leyes y normas o para superar procesos de auditoria.

Risk Intelligence

Un concepto interesante leemos en el blog de Norman Marks (nuestro referente en GRC) Podríamos afirmar que la gestión inteligente del riesgo, es un concepto mucho más amplio que normalmente se le da al GRC.  El Risk Intelligence (RI) considera, no tan sólo no cometer errores, sino saber detectar oportunidades, implicándose más en la cultura de las empresas y en los colaboradores de la organización, porque las decisiones se toman en todos los niveles.

Un aspecto relevante de este enfoque es su tolerancia al “fracaso”, el cual no debería ser visto como la perdida o daño, porque este puede ser impulsor de la superación e innovación.

Los directivos tienen necesidad de anticiparse a lo inesperado (Cisnes Negros / Black Swans) para ser más preactivos y obtener las ventajas de ser el primero y focalizar sus decisiones a más largo plazo.

El surgimiento de nuevos modelos de negocio, los cambios en las preferencias de los consumidores o la evolución de las “nuevas tecnologías”, exigen agilidad que no se logra evitando problemas o elaborando modelos matemáticos. Una alternativa es detectar en el riesgo sus oportunidades, para brindar valor y ventaja competitiva a la organización.

Referencia:

El Cisne Negro en el BI (II Parte) y la Minería de Datos

Por todos los sucesos que ocurren a diario, difíciles de predecir y desde que leímos las primeras páginas del libro de Nassim Nicholas Taleb, estamos dudando un poco más sobre la efectividad de la Minería de Datos.  El también llamado data mining, es quizás la técnica menos implementada de todas las que componen el Business Intelligence, creemos que se debe por su mayor complejidad y la necesidad de tener unos conocimientos adicionales como la estadística.

Recuperando la definición sobre minería de datos, de una de las mejores fuentes bibliográficas que tenemos de referencia, señala textualmente lo siguiente:

“La minería de datos tiene como objetivo analizar los datos para extraer conocimiento.  Este conocimiento puede ser en forma de relaciones, patrones o reglas inferidas de los datos y (previamente) desconocidos, o bien e forma de una descripción más concisa (es decir, un resumen de los mismos). Estas relaciones o resúmenes constituyen el modelo de datos analizado. Existen muchas formas diferentes de representar los modelos y cada una de ellas determina el tipo de técnica que puede usarse para inferirlos.

En la práctica, los modelos pueden de dos tipo: predictivos o descriptivos.  Los modelos predictivos pretenden estimar valores futuros o desconocidos…

Los modelos descriptivos, en cambio, identifican patrones que explican o resumen los datos, es decir, sirven para explorar las propiedades de los datos examinados,…”

Sobre la categorización o clasificación según patrones, por ejemplo aplicado en las personas, estos se trastocan con mayor celeridad que antes, Internet y todos los fenómenos que conlleva, como las redes sociales, contribuyen a la evolución o abandono de estos patrones en unos cuantos clics, son tantos los datos que se podrían analizar, que la técnica basada en la agrupación y resumen, deja en el camino características particulares de mayor relevancia.

Esta comprobado que la facultad de predicción es inexistente, entidades revisoras de riesgo financiero, gobiernos, Gartner con sus predicciones anuales sobre la tecnología que  se implementará y luego no valora su grado de acierto o el mismo Google, con la cantidad de información que manipula a fracasado con el lanzamiento de más de un producto, el último Google Wave.  Como señala el autor del Cisne Negro, predecir y acertar es cuestión de suerte, no se puede predecir cuando ocurrirá un terremoto, pero si se podría cuantificar sus consecuencias y estar preparados para una reacción inmediata.

No sugerimos que abandonen sus implementaciones de minería de datos, sólo que los modelos generados sean revisados con mayor frecuencia y que el resultado de las conclusiones sean tomandos con una información de referencia, no como la verdad absoluta.

Referencia: (anterior post) El Cisne Negro en el BI (I Parte)

Ciclo en Espiral, una alternativa a CRISP-DM

Un proyecto de minería de datos difiere mucho de cualquier otro proyecto en donde se aplique alguna tecnología de la información, inclusive de cualquier otro tipo de proyecto de Business Intelligence.  Un proyecto de minería de datos no termina con la instalación y configuración del producto a utilizar. La minería de datos es un proceso de aprendizaje, y como tal, es constante y progresivo, basándose en este principio, existe una técnica denominada “Ciclo de vida en espiral”, una metodología alternativa a CRISP-DM.

Al igual que un proceso de aprendizaje, desde el inicio, no se debería pretender a abordar todos los aspectos que se desean estudiar/mejorar dentro de la organización.  La propuesta es elegir los aspectos o necesidades más claros y relevantes y, posteriormente, logrados estos objetivos, plantearse otros.

La primera “ronda” de este proceso cíclico, puede constituir a un denominado proyecto “piloto”, a medida que el programa avance se puede ir identificando y definiendo problemas más ambiciosos ¿Cuánto debería durar el primer ciclo?, se sugiere que no debería esperarse más de seis meses para obtenerse los primeros resultados

Referencia: Introducción a la Minería de Datos ( José Hernández Orallo)

aníbal goicochea

Minería de datos para conocer el comportamiento de los clientes

En un artículo de la siempre muy educativa revista Harvard Deusto Marketing & Ventas , de hace algunos meses atrás, titulado; “Predecir el comportamiento de los clientes”, explica algunos casos en los que un análisis más profundo de los clientes es imprescindible. Los ejemplos expuestos resultan útiles para los que aun están valorando la utilización de alguna aplicación de minería de datos. Deseo compartir un resumen e interpretación de este interesante artículo, con el permiso/disculpas al autor (José Luis Ibáñez Medrano) y a la editorial, por el uso y promoción que realizamos de sus contenidos.

Los clientes de muchas empresas presentan características y comportamientos muy diversos, que se ven reflejados en cambios en la frecuencia, cantidad y tipos de productos que consumen.  Todos estos cambios, que se producen en una cartera de clientes, constituyen la “dinámica interna” de la cartera.

No resulta fácil detectar estos cambios o predecir las consecuencias que podrían generar; pero es necesario tenerlos en cuenta por la importancia de su repercusión en la economía de las empresas.

Los ratios clásicos, tales como el número de clientes en cartera, índice de bajas o la penetración por producto; están basados en hechos históricos, los que no resultan suficientes para gestionar los cambios de coyunturas.

Lo recomendable, es realizar un análisis de la dinámica interna de la cartera de clientes, de sus comportamientos actuales para ayudar a solucionar probables problemas futuros.

Cuando se deberia estudiar la dinamica interna de la cartera de clientes

Casos en que es recomendable realizar un análisis de la dinámica interna

1. Los nuevos clientes se comportan diferente a los clientes actuales

Generalmente los nuevos clientes presentan un comportamiento “peor” que el de los clientes actuales. Esto se debe porque inicialmente se dirige a un segmento específico con alto potencial y luego a segmentos de menor rentabilidad.

Se ve reflejado en una menor facturación y ratios de baja, mayores. Su efecto en los resultados, en el tiempo, es cada vez mayor.

Una detección oportuna de estas tendencias podría permitir tomar medidas como aumentar los objetivos de captación o emprender acciones para disminuir los ratios de baja.

2. Cuando su tendencia a la compra es proporcional a la frecuencia de compra/uso en los últimos meses

La frecuencia de la compra actual determina la frecuencia de compra futura.

La probabilidad que un cliente realice una compra en un establecimiento comercial se incrementa si las últimas adquisiciones las realizó en ese punto de venta.

Muy aplicable a la navegación por Internet y al control de objetivos por conversiones (visitas, compras, inscripciones, etc.)

3. Cuando la estimación del valor futuro de un cliente es un parámetro crítico en el diseño de la estrategia

El “valor futuro” de un cliente considera su “valor actual” (contribución en términos de facturación, margen o beneficio) y la evolución de su comportamiento, incluida la probabilidad de darse de baja en los próximos años.

En consecuencia, las acciones de marketing deberían ser distintas para cada cliente en función de su valor futuro. Si hay un ratio de baja elevado, quizás sea necesario acciones agresivas que resuelvan las posibles razones de abandono.

4. Cuando es necesario medir la efectividad estratégica de una acción de marketing

Una acción estratégica es aquella cuyos resultados se mantiene a mediano o largo plazo (p.e.: posicionamiento de una marca) y las acciones tácticas están dirigidas a atender problemas puntuales (p.e.: promociones para hacer frente a una guerra de precios).

Para una empresa, las acciones que tienen más valor, es cuando tienen un componente estratégico (algún cambio se ha producido en el mercado).

Una reducción de precios es más importante si consigue captar clientes de la competencia, además de un aumento de las ventas durante el período de la promoción.

Si después de la acción, la dinámica interna de la cartera de clientes, permanece igual, el componente estratégico de la acción habrá sido muy bajo.

Para llegar a conocer y comprender la dinámica interna de la cartera de clientes es necesario, en primer lugar, determinar cuales son los objetivos de negocios que van a guiar el estudio y por otro lado, contar una herramienta de minería de datos, implementada en base a los parámetros de cada negocio.

La inversión para saber que medidas de deben tomar oportunamente, se justifica ampliamente en contraposición por las consecuencias de no nacer nada, actuar en base a la intuición o contar con escasa información.

anibal goicochea

CRISP-DM, Una metodología para proyectos de Minería de Datos

Para implementar una tecnología en un negocio, se requiere de una metodología.  La mayoría de las consultoras especializadas en alguna tecnología cuentan, con por lo menos, una metodología, según los tipos de proyectos que aborden.  Estos métodos son definidos a partir de sus experiencias y tomando lo mejor de los procedimientos más exitosos o populares.  Contar con una metodología, se ha convertido tan importante y necesario como la carta de presentación de las empresas.

Para los diferentes tipos de tecnologías, hay varias metodologías, algunas están publicadas en Internet.  Para el caso de proyectos de implementación de minería de datos, hay una en particular; CRISP-DM, en sus primeros años de divulgación tenía apoyos de empresas privadas y organismos públicos, pero poco a poco ha ido perdiendo uno que otro “Project Partner”.  Desconocemos el motivo de esta aparente perdida de apoyo, pero estamos seguros que no corresponde a la falta de calidad o efectividad del método, porque ha sido adoptado por otros organismos y empresas.

 Metodologia para Mineria de Datos - CRISP-DM

El estándar incluye un modelo y una guía, estructurados en seis fases, algunas de estas fases son bidireccionales, lo que significa que algunas fases permitirán revisar parcial o totalmente las fases anteriores.

Comprensión del negocio (Objetivos y requerimientos desde una perspectiva no técnica)

  • Establecimiento de los objetivos del negocio (Contexto inicial, objetivos, criterios de éxito)
  • Evaluación de la situación (Inventario de recursos, requerimientos, supuestos, terminologías propias del negocio,…)
  • Establecimiento de los objetivos de la minería de datos (objetivos y criterios de éxito)
  • Generación del plan del proyecto (plan, herramientas, equipo y técnicas)

Comprensión de los datos (Familiarizarse con los datos teniendo presente los objetivos del negocio)

  • Recopilación inicial de datos
  • Descripción de los datos
  • Exploración de los datos
  • Verificación de calidad de datos

Preparación de los datos (Obtener la vista minable o dataset)

  • Selección de los datos
  • Limpieza de datos
  • Construcción de datos
  • Integración de datos
  • Formateo de datos

Modelado (Aplicar las técnicas de minería de datos a los dataset)

  • Selección de la técnica de modelado
  • Diseño de la evaluación
  • Construcción del modelo
  • Evaluación del modelo

Evaluación (De los modelos de la fase anteriores para determinar si son útiles a las necesidades del negocio)

  • Evaluación de resultados
  • Revisar el proceso
  • Establecimiento de los siguientes pasos o acciones

Despliegue (Explotar utilidad de los modelos, integrándolos en las tareas de toma de decisiones de la organización)

  • Planificación de despliegue
  • Planificación de la monitorización y del mantenimiento
  • Generación de informe final
  • Revisión del proyecto

 

Esta metodología para proyectos de minería de datos no es la “más actual” o “la mejor”, pero es muy útil para comprender esta tecnología o extraer ideas para diseñar o revisar métodos de trabajo para proyectos de similares características.

aníbal goicochea

Minería de Datos, ¿Lo necesito?

Pasado el temporal, se analiza y se concluye, que si se hubiera hecho un mejor uso de la información, muchas organizaciones hubieran podido gestionar mejor la situación.  En este sentido, el Business Intelligence y un poco más, la minería de datos (data mining), han tomado más protagonismo en los últimos meses, hay más personas que indagan sobre estas dos tecnologías y la Web aumenta en definiciones y conceptos.  Si nos tuviéramos que quedar con una definición de minería de datos, optaríamos por la que dice lo siguiente: “Proceso para extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos, almacenados en distintos formatos”.

Minería de datos = Extraer conocimiento de grandes cantidades de datos

Implementar ¿si?, ¿no?,… me lo estoy pensando…

La pregunta que algunos se estarán formulando es si deberían contemplar el desarrollo de un proyecto de minería de datos en su empresa.  Los beneficios que se describen son muy interesantes y atractivos, pero como en toda tecnología, si existen beneficios para implementarla, también habrá inconvenientes y costes.  Al final, se trata de identificar si la suma de beneficios será superior al total de costes.

¿Implementar? = Necesidades del negocio + Beneficios Esperados – Coste personal – Coste materiales

¿Por donde comenzamos?

Un buen inicio para evaluar la utilidad de contar con una solución de minería de datos es identificando la serie de necesidades del negocio que podrían ser cubiertas.  Viene bien recordar una expresión relacionada a este asunto: “la necesidad debe crear el programa y no el programa debe crear la necesidad”.  Ejemplos de necesidades de negocio:

  • Identificar razones de subidas de consumo
  • Señalar motivos bajadas de las ventas
  • Adecuar producción a ventas futuras
  • Determinar tendencias del mercado
  • Evaluar tendencias de comportamiento de la competencia
  • Reducir listas de espera

Objetivos del negocio vs. Objetivos de la aplicación

La identificación de las necesidades del negocio permitirá identificar los objetivos del negocio, las que no necesariamente serán las funciones de la aplicación a implementar.  Por ejemplo, identificar las probabilidades de compra de un segmento de cliente bajo ciertas variables, es una tarea de la aplicación de minería de datos a desarrollar.  Lograr una respuesta del 10% en un determinado segmento corresponde a un objetivo de negocio, que se logrará, según las acciones que se tomen y quizás la información que brinde la aplicación sea determinante.

Minería de datos dirigida y no dirigida

Tener los objetivos de negocio presente en el desarrollo del proyecto, permitirá desglosarlo e identificar las tareas de minería de datos necesarias para contribuir a su logro.  Saber a priori lo que se va a realizar y que modelos se van obtener se denomina minería de datos dirigida (model-driven).

El modelo no dirigido, partiendo sólo de los datos (data-driven) consiste en obtener patrones, que a medida que se van “descubriendo” se estime si pueden ser útiles para resolver algunas necesidades del negocio.  Este método es más abierto y arriesgado, porque en muchos casos, algunos modelos encontrados serán descartados porque no solventarán ninguna necesidad del negocio.

Para una fase inicial de un proyecto de minería de datos, se recomienda el modelo dirigido, en una fase posterior, cuando se cuente con una mayor maduración tanto de la aplicación implementada como del equipo de colaboradores a cargo, se podría probar el modelo no dirigido.

Resumiendo, la sugerencia para evaluar la posibilidad de poner en marcha un proyecto de minería de datos sería: Identificar necesidades, sopesar beneficios vs. costos, señalar objetivos del negocio y determinar las tareas de la minería de datos que se desarrollarían (model – driven).

aníbal goicochea

Nuevo nicho en la Consultoría, Búsquedas empresariales y la Web 2.0

Se esta produciendo en la empresa el cambio de paradigma que ya se ha producido en Internet, no es tan importante como se guardan los datos, sino como se acceden a ellos en el menor tiempo posible, no importando si son datos estructurados o no estructurados.  Se estima que más del 70% de la información que se gestiona en las empresas es no estructurada.

La necesidad ahora, esta en la empresa de acceder y compartir, con rapidez, seguridad y sencillez la información disponible.  Es crucial disminuir el tiempo que se invierte en buscar información, se calcula que hasta el 30% del tiempo de los trabajadores se dedica a estas tareas.

Es en este panorama que esta tomando mayor fuerza los denominados Buscadores Empresariales (Corporativos o únicos).  Las consultoras más especializadas en analizar las tendencias del sector de las Tecnologías de la Información (TI); Gartner e IDC, prevén tasas de crecimiento de dos dígitos en este, relativamente, nuevo segmento.

Estas herramientas integran e indexan cualquier fuente de datos, sea estructurada o no estructurada, en tiempo real, siendo capaz de acceder a distintas plataformas, diferentes bases de datos o cualquier formato utilizado en la denominada Web 2.0.

La mayoría de fabricantes que ofrecen una plataforma de Business Intelligence (BI) ofrecen una solución de estas características.  Algunos de estos buscadores utilizan sus motores de búsqueda con algoritmos propios, otros utilizan las herramientas que ofrece Google para este fin (Google Search Appliance).  Obtenida la información que se esta buscando, estos productos facilitan el análisis de los datos con los productos de BI que ya disponen.

Principales propuestas de buscadores empresariales:

(Más información)

aníbal goicochea


SAS Social Network Analysis (Análisis de Redes Sociales)

SAS, desde ya hace un tiempo, ofrece un marco de trabajo para el análisis y prevención del fraude, esta suite denominada SAS Fraud Framework, a través de una serie de reglas y alertas, ayuda a prevenir, detectar e investigar el fraude utilizando modelos predictivos y analizando las redes sociales.

Gracias a su componente SAS Social Network Analysis (Análisis de Redes Sociales) es posible ver, para un individuo en particular, sus redes sociales, conexiones y relaciones que previamente estaban ocultas. Su uso no circunscribe a la detección oportuna del delito, también podría tener otros usos, dado que la herramienta de una manera altamente intuitiva, permite identificar a los denominados influyentes y seguidores.

http://www.sas.com/solutions/fraud/social-network/index.html

http://tinyurl.com/qmc6kz

Ag.

Minería de Texto, una técnica para analizar la Web

La información que tienen a su disposición las empresas, proviene de diversos orígenes y tienen variados formatos, se estima que cerca del 70% de estos datos son “no estructurados”, es decir, no obedecen a estándares informáticos que facilitan su tratamiento.  Esta información, que se expresa en el leguaje natural, el que todos empleamos, esta contenida en documentos, mensajes de correo electrónico, páginas Web, feeds de RSS (de blogs y noticias), notas de servicio, encuestas, reclamos, curriculums, registros de llamadas, etc.

No tomar en cuenta esta información, sería como negarse a ver gran parte del panorama que tenemos a nuestra disposición.  Para facilitar el análisis de estas fuentes de datos, contamos con la Minería de Texto (Text Mining) que utilizando técnicas de Procesamiento del Lenguaje Natural (NLP), permite transformar toda esta información en formatos estructurados o semi-estructurados que van a facilitar las tareas del análisis e interpretación de la información.

Contando con información estructurada, se podrá hacer uso de las técnicas de Minería de Datos (Data Mining), algo más conocido, para facilitar el descubrimiento de patrones, tendencias, desviaciones y detectar asociaciones entre nuestros objetos de estudio.

Software Mineria Texto

Existe software que permite las tareas de minería de texto, quizás por el tiempo que llevan en el mercado de la “Inteligencia empresarial” (Business Intelligence) los más reconocidos son el de SAS y SPSS.

 http://www.sas.com/technologies/analytics/datamining/textminer/index.html#section=1

http://www.spss.com/software/modeling/text-analytics/

 Ag.