Archivo de la categoría: Minería de Datos

Un blog para KXEN

KXEN (Knowledge eXtraction ENgines) es un fabricante de software para el análisis predictivo que tiene una gran variedad de herramientas, cuya filosofía que percibimos es facilitar el uso de esta técnica de minería de datos, minimizando los tecnicismos que normalmente abundan en este tipo de aplicaciones.

Su principal producto es InfiniteInsight, el cual es usado por la gran mayoría de empresas del Fortune 500, pero a pesar de ello, la información que tenemos de esta empresa y sus aplicaciones es relativamente poca, para contribuir a cubrir esta carencia, KXEN ha creado un blog en el que dará a conocer más novedades sobre sus propuestas.

… lo único que nos falta es un KXEN by HANA, o algo así.

La Predicción, ¿asignatura pendiente de SAP?

Sabemos que son días de de fiesta y celebración por el lanzamiento oficial de SAP BusinessObjects 4.0, pero no podíamos dejar pasar por alto más este tema, sobre todo luego de leer una reciente entrada de sumo interés.

Con la información, en Business Intelligence, se puede informar, explorar, modelar (escenarios) y predecir, para que luego el usuario o consumidor de información pueda analizarla.  Para las tres primeras grandes categorías de contenido de BI, BusinessObjects tiene una amplia variedad de herramientas, algo que no sucede en cuanto a la predicción o minería de datos.

Dependiendo de “IBM SPSS Modeler”

El componente predictivo de la plataforma SAP BusinessObjects es Predictive Workbench, basado en SPSS Modeler, un producto de IBM desde mediados de 2009, fecha en que adquiere SPSS por 1.200 millones de dólares.

Cuando SAP adquiere Business Objects ya existía un contrato con SPSS, el cual ha sido renovado el pasado junio.

SAP PIO – SAP Performance and Insight Optimization

Desde hace unos meses tenemos información sobre SAP PIO, inicialmente pensábamos que se trataba de un nuevo producto, una plataforma predictiva o algo similar, pero revisando la breve documentación disponible, vemos que se trata más de una visión, basada en servicios y en productos existentes: SAP BusinessObjects, SAP HANA + Predictive Workbench (con SPSS Modeler embebido).

Concluyendo

Las necesidades de herramientas predictivas es creciente, están ganando un gran protagonismo en las plataformas de Business Intelligence o Business Analytics, por lo que consideramos que la dependencia que tiene SAP de un producto de la competencia es una situación temporal, la pregunta sería ¿habrá un desarrollo interno o una adquisición?, si se optara por la segunda vía, ya tenemos nuestra sugerencia.

Referencia: Blog de Dirk Petzoldt

Descubriendo KXEN, plataforma de minería de datos

Muchas de las implementaciones de sistemas de información de las organizaciones se basan en la presentación de datos recientes o pasados, de un modo que nos ayudan a comprender la situación y evolución del negocio y tal vez, a deslumbrar alguna tendencia. Esto suena bien, hasta ahora.

Pero para tomar decisiones más acertadas quizás sería más conveniente conocer con mayor exactitud lo que podría suceder, no hay nada exacto para conocer el futuro inmediato, lo más próximo a la “exactitud”, es la minería de datos o Data Mining.

El Datamining, no es nada nuevo, quizás como concepto sea más antiguo que el mismo Business Intelligence, pero a pesar del tiempo transcurrido y la utilidad que puede brindar, su adopción es considerablemente menor con relación a cualquier otra herramienta informática.

El Data Mining, una herramienta postergada e ignorada

Las nuevas herramientas de Business Intelligence o Busniess Analytics prometen un mayor uso de las técnicas de minería de datos, pero ¿por qué se ha esperado tanto para adoptarlo e incorporarlo plenamente al BI? (quizás más de una década).

Creemos que la respuesta a la anterior pregunta está en la complejidad que puede tener el Data Mining, basada en técnicas estadísticas que muy pocos fabricantes de software (y consultores) se han especializado, si mencionamos algunos productos relevantes, seguro que tendríamos una lista muy pequeña conformada por SAS, SPSS, R, y ¿alguna más? Sí, KXEN.

Los modelos, el fin de la minería de datos

El resultado de un proceso de minería de datos es un nuevo conocimiento contenido en el denominado modelo, existen varias formas de representarlos, depende de las técnicas que se han empleado para obtenerlo.  En esencia, los modelos pueden ser de dos categorías:

  • Predictivos. Estiman valores futuros de variables denominadas “variables objetivo” o “variables dependientes”, utilizando información histórica u otras variables las cuales se denominan “variables independientes” o “variables predictivas”.  Por ejemplo; estimar el volumen de ventas de un nuevo punto de venta (variable objetivo), según su ubicación o volumen de ventas de locales próximos (variable independiente).
  • Descriptivos. Identifican patrones que explican o agregan los datos, facilitando la exploración y análisis, no predicen nuevos datos.  Por ejemplo; identificación de públicos objetivos para campañas de marketing.

KXEN, la sencillez de la utilidad

Hace unos meses tuvimos la fortuna de recibir una clase maestra sobre KXEN, de la mano de un representante líder en su implementación, me refiero a HabberTec.  Debemos reconocer que antes de esta sesión, desconocíamos de la existencia de esta útil y sencilla plataforma predictiva.

KXEN (Knowledge eXtraction ENgines) es un fabricante de software independiente, especializado en herramientas estadísticas y de minería de datos, que utiliza técnicas que la diferencian como la Minimización del Riesgo Estructurado (Structured Risk Minimization, SRM), la cual facilita la inclusión de muchas más variables predictivas que los modelos tradicionales, sin afectar la fiabilidad y la precisión.

Nos gusta KXEN, especialmente por su facilidad de uso, el procesos para la obtención de los modelos, no abunda en tecnicismos que podrían dificultar su uso.  Alguien podría observar la poca calidad de sus gráficos, pero es que este no es el objetivo de una herramienta predictiva, para ello, brinda la posibilidad de exportar el modelo a otros entornos, inclusive a productos “competidores” como SAS, Minitab o SPSS.

Seguiremos profundizando en KXEN, consideramos que aumentará su protagonismo como plataforma predictiva y de minería de datos y en el futuro inmediato del BI, cada vez son más los casos de éxito que se cuentan.… Gracias el equipo de HabberTec por compartir con nosotros sus conocimientos y experiencias. 

Referencias: KXEN.com y HabberTec

Lo mejor del #IBMBAS11

IBM tiene la cuarta posición en cuota de mercado en la categoría de aplicaciones de Inteligencia de negocios, analíticas y gestión del rendimiento, además de los 100 años de existencia, tiene la suficiente credibilidad para que debamos tomar nota  de las perspectivas y visión que tiene en cuanto a las tecnologías para la gestión de negocios.

En el evento de IBM celebrado en Ottawa, el 1 y 2 de junio, denominado “IBM Business Analytics Summit”, se comentaron diferentes aspecto de las TI vinculadas al Business Intellence y Bussiness Analytics, pero de todos ellos, nos quedamos con dos, porque consideramos que ya están definiendo el interés y decisiones de fabricantes y consumidores:

La gestión o tratamiento de los grandes volúmenes de datos en el análisis; también conocido como Big Data.

En los negocios y alrededor de ellos se está generando grandes volúmenes de información, que cambian de prisa y se presentan en infinidad de formatos.  Para lo cual IBM señala una distinción entre el “análisis tradicional” y “análisis Big Data”, el primero responderá a preguntas concretas y el segundo ofrece una exploración más interactiva y creativa.

Big Data = 3V (Variedad formatos, Velocidad de cambio y Volúmenes grandes)

Tendencias del Análisis Predictivo

IBM señala tres grandes tendencias que deben considerar las aplicaciones de negocios que se cataloguen como predictivas:

  • La inclusión de otros tipos de fuentes de datos como el audio y las imágenes
  • La necesidad de permitir otras técnicas en el análisis predictivo, como podría ser la teoría de juegos o la vinculación con reglas de negocio,
  • Mayor facilidad en el uso de las herramientas y de los modelos: instalar y usar.

Referencias: JT on EDM (aquí y aquí)

Buscando datos de clientes “minables”

Comenzar una tarea de minería de datos comienza por identificar un objetivo, “meridianamente” claro, “conocer más a nuestros clientes” o “identificar necesidades/deseos no satisfechos de los consumidores” podrían ser propósitos típicos, en una iniciativa Data Mining.

Contar con suficientes datos para ser “minados” es un requisito indispensable, se trate de una nueva o veterana empresa puede resultar una tarea nada fácil obtener datos actualizados que aporten luces a las conclusiones que se pudiesen derivar del proyecto de Minería de Datos. 

Además de las bases de datos que se pueden adquirir de empresas especializadas en realizar estudios de consumo y mercado, una de las siguientes alternativas podría ayudar a conseguir datos de los clientes que se desean analizar:

  • Publicar un documento y facilitar su descarga gratuita, previa cumplimentación de datos en un formulario.
  • Suscripciones a boletines con la entrega de datos de contacto y preferencias concretas.  Podrían ayudar servicios como el de MailChimp que permite enviar hasta 12.000 mensajes de correo electrónico a 2.000 destinatarios en un mes, gratis. Ver también SocialPro aplicación complementaria a MailChimp
  • Encuestas que solicitarían datos de contacto. Se aconseja revisar los servicios de SurverMonkey.
  • Analizar los datos de los visitantes a las páginas Web de la organización servicios como Pardot  y eTrigue pueden ser de gran ayuda
  • Las cada vez más usuales redes sociales, tales como Facebook, Linkedin o Twitter, pero teniendo en cuenta los términos de uso de cada una de ellas.

Como señala el artículo de referencia, en cualquier caso, se debe ser cuidadoso con las leyes y reglamentos de protección de datos y tener en cuenta lo siguiente:

  • No solicita demasiados datos
  • Claridad con la información que se solicita.
  • Facilidad para darse de baja.
  • Explicar el uso que se le dará a la información aportada

Referencia: PC World

Tiempo de Análisis Predictivo. Tiempo de acuñar nuevos términos

Analizar el pasado para predecir el futuro, por más minucioso que uno sea, no hay ninguna garantía que se acertará, como apuntábamos en la serie de posts “Cisne Negro”, la evaluación estadística de hechos ocurridos no nos permiten presagiar el futuro  porque nos enfrentamos con la incertidumbre que se produzca una rareza, un hecho fuera del alcance de las “expectativas normales” un “Cisne Negro”.

Pero no hay más alternativas, el análisis predictivo es el mejor instrumento para reaccionar a tiempo y lograr una ventaja competitiva si este es bien gestionado.

Desde hace unos años (desde el inicio de la llamada “crisis”) ha ido ganando más protagonismo el análisis predictivo y alrededor de esta técnica se han definido nuevos productos y conceptos como el Predictive Business Analytics (PBA) acuñado por la publicación Businesss Finance

Predictive Business Analytics (PBA)

Se define PBA como el conjunto de habilidades, tecnologías, herramientas y procesos para el continuo análisis del rendimiento que han tenido las organizaciones para poder tener una visión del futuro y encaminar las decisiones y acciones de negocio.

PBA se centra en el desarrollo de nuevos conocimiento y en la compresión del rendimiento de la organización, para lo cual se realizan análisis estadísticos, cuantitativos, modelos explicativos y modelos predictivos.  El PBA se caracteriza por lo siguiente:

  • Demuestra una fuerte relación causa – efecto de los hechos
  • Contiene un conjunto equilibrado de indicadores financieros, no financieros, internos y externos.
  • Debe ser relevante, confiable y oportuno para la circunstancia y usuario.
  • Integridad de datos garantizada.
  • De fácil acceso y buena organización.
  • Integrada a la gestión de procesos.
  • Debe influir en el comportamiento (debe estar vinculado a los procesos de reconocimiento y recompensa salarial)

El PBA trata de ayudarnos a saber cómo será el futuro y definir acciones antes que este ocurra, pero quizás la gran variante con relación a lo ya existente, es que se define como un proceso continuo e integrado a la gestión de la organización.

Referencia: Business Finance Magazine

Locos por el “Pack”

Consideramos que las necesidades de una organización en un proyecto de Business Intelligence son “personales e intransferibles”, porque obedecen (o debería ser así) a aspectos muy particulares  como la identidad de la empresa (misión, visión, cultura organizativa) y sus aspiraciones (objeticos estratégicos).

En varias ocasiones hemos visto iniciativas para “paquetizar soluciones” de BI (una reciente, la de Oracle), desconocemos los resultados, porque se publica la “idea”, pero nada de la evolución o resultados de la misma.  Un “traje a medida” en el BI, a menos que el cliente objetivo no esté muy bien delimitado, nos parece poco flexible y costoso, tanto para el cliente como para el implementador.

Paquetizar el Análisis Predictivo: Plop!

Desarrollar soluciones en análisis predictivo “de todos los sectores” es la tarea que se han trazado SAS, el mayor fabricante de software de business analytics y una conocida consultora con presencia internacional.

Si “enlatar” el BI nos parece una locura,  abordar la tarea de paquetizar el análisis predictivo… Plop! … Sabiendo que el análisis predictivo responde a necesidades puntuales que quizás en el momento actual no existan y a temas operativos tan variopintos como número de especies de seres vivos existen en el planeta, … otro Plop! …

Pero quizás no equivoquemos, en todo caso, al igual que comentábamos para el BI, a menos que los objetivos de la solución no sean muy específicos, el riesgo y costo de un proyecto de estas características es elevado. 

Referencia: La Vanguardia

KDD, marco de trabajo para la minería de datos

En momentos en que las técnicas de análisis avanzando ganan mayor protagonismo, tales como las que se incluyen en las herramientas de minería de datos, es oportuno recordar el marco de trabajo en las que mejor se utiliza como el “Proceso de extracción de conocimiento a partir de datos” (KDD Knowledge Discovery in Databases).

Encontramos este esquema en una publicación que explica paso a paso el uso de SPSS, la herramienta de análisis y minería datos más importante, propiedad de IBM, utilizada por otros fabricantes de software para desarrollar sus aplicaciones de Data Mining.  En el caso de SAP, tenemos a SAP BusinessObjects Predictive Workbench.

Referencia: (aquí)

Dos interesantes temas en el último BI Beers

BIFácil comenta dos interesantes temas que se trataron en el último encuentro BI Beers, de blogueros de Business Intelligence: Minería de datos y  el Datawarehouse en vías de extinción.

DW, ¿hasta la vista baby?

Considero que la supuesta “amenaza” que se cierne sobre el Datwarehouse (DW), no es la “tecnología asociativa”, una de las principales fortalezas de productos como QlikView, que consiste en establecer relaciones entre dimensiones y atributos sin que necesariamente exista una relación jerárquica o física entre estos elementos en las fuentes de datos.

Considero que uno de los principales candidatos a ser una alternativa a los DW, a mediano o largo plazo, son productos que permitan construir capas semánticas que aglutinen a todas las fuentes de datos necesarias. Existen soluciones como Data Federator de SAP BusinessObjects que tienen este enfoque. Este tipo de soluciones que están en la categoría de Integradoras de Información (Enterprise Integration Information, no son soluciones ETL) complementadas con hardware especifico, pueden constituir una solución rápida y eficaz, comparable a un DW.

Minería de datos, ¿dónde estas que no te veo?

Es cierto, son muy pocos los casos conocidos, algunas entidades financieras y de seguros lo utilizan para clasificar a sus clientes y evaluar el riesgo, pero la realidad parece haber puesto en duda su efectividad.

Quizás su complejidad ha sido el principal motivo de su poco uso, al final, para muchos resultó ser una interesante asignatura en la etapa de formación.  Pero considero que las organizaciones no se han perdido de mucho, al final, las clasificaciones o el análisis predictivo, poco pueden hacer para “anticiparnos al futuro”, claro, salvo mejor opinión.

El Cisne Negro en el BI (V Parte) y la Gestión Inteligente del Riesgo (GRC++)

Debemos reconocer nuestras pocas habilidades para vaticinar el futuro y considerar que técnicas como la minería de datos o lo estadística, sólo nos brindará una instantánea de una situación determinada, cuya validez se limita a un espacio de tiempo muy reducido, porque el comportamiento humano y otras tantas variables que conforman cualquier modelo, no obedecen a modelos matemáticos o tendencias duraderas, sino al libre albedrío.  La coyuntura actual y la triste extinción de muchas organizaciones es la prueba de ello.

Creemos que anticiparse al futuro, no es preocuparse en el “cuándo”, sino más bien en el “cómo”, y esta línea la disciplina que se perfila como la más idónea, a nuestro parecer, es el GRC (Governance, Risk management, and Compliance), la cual no debe ser vista como una “herramienta” para facilitar el cumplimiento de leyes y normas o para superar procesos de auditoria.

Risk Intelligence

Un concepto interesante leemos en el blog de Norman Marks (nuestro referente en GRC) Podríamos afirmar que la gestión inteligente del riesgo, es un concepto mucho más amplio que normalmente se le da al GRC.  El Risk Intelligence (RI) considera, no tan sólo no cometer errores, sino saber detectar oportunidades, implicándose más en la cultura de las empresas y en los colaboradores de la organización, porque las decisiones se toman en todos los niveles.

Un aspecto relevante de este enfoque es su tolerancia al “fracaso”, el cual no debería ser visto como la perdida o daño, porque este puede ser impulsor de la superación e innovación.

Los directivos tienen necesidad de anticiparse a lo inesperado (Cisnes Negros / Black Swans) para ser más preactivos y obtener las ventajas de ser el primero y focalizar sus decisiones a más largo plazo.

El surgimiento de nuevos modelos de negocio, los cambios en las preferencias de los consumidores o la evolución de las “nuevas tecnologías”, exigen agilidad que no se logra evitando problemas o elaborando modelos matemáticos. Una alternativa es detectar en el riesgo sus oportunidades, para brindar valor y ventaja competitiva a la organización.

Referencia: