KDD, marco de trabajo para la minería de datos

En momentos en que las técnicas de análisis avanzando ganan mayor protagonismo, tales como las que se incluyen en las herramientas de minería de datos, es oportuno recordar el marco de trabajo en las que mejor se utiliza como el “Proceso de extracción de conocimiento a partir de datos” (KDD Knowledge Discovery in Databases).


En momentos en que las técnicas de análisis avanzando ganan mayor protagonismo, tales como las que se incluyen en las herramientas de minería de datos, es oportuno recordar el marco de trabajo en las que mejor se utiliza como el “Proceso de extracción de conocimiento a partir de datos” (KDD Knowledge Discovery in Databases).

Encontramos este esquema en una publicación que explica paso a paso el uso de SPSS, la herramienta de análisis y minería datos más importante, propiedad de IBM, utilizada por otros fabricantes de software para desarrollar sus aplicaciones de Data Mining.  En el caso de SAP, tenemos a SAP BusinessObjects Predictive Workbench.

Referencia: (aquí)

Dos interesantes temas en el último BI Beers

BIFácil comenta dos interesantes temas que se trataron en el último encuentro de blogueros de Business Intelligence: Minería de datos y el Datawarehouse en vías de extinción.


BIFácil comenta dos interesantes temas que se trataron en el último encuentro BI Beers, de blogueros de Business Intelligence: Minería de datos y  el Datawarehouse en vías de extinción.

DW, ¿hasta la vista baby?

Considero que la supuesta “amenaza” que se cierne sobre el Datwarehouse (DW), no es la “tecnología asociativa”, una de las principales fortalezas de productos como QlikView, que consiste en establecer relaciones entre dimensiones y atributos sin que necesariamente exista una relación jerárquica o física entre estos elementos en las fuentes de datos.

Considero que uno de los principales candidatos a ser una alternativa a los DW, a mediano o largo plazo, son productos que permitan construir capas semánticas que aglutinen a todas las fuentes de datos necesarias. Existen soluciones como Data Federator de SAP BusinessObjects que tienen este enfoque. Este tipo de soluciones que están en la categoría de Integradoras de Información (Enterprise Integration Information, no son soluciones ETL) complementadas con hardware especifico, pueden constituir una solución rápida y eficaz, comparable a un DW.

Minería de datos, ¿dónde estas que no te veo?

Es cierto, son muy pocos los casos conocidos, algunas entidades financieras y de seguros lo utilizan para clasificar a sus clientes y evaluar el riesgo, pero la realidad parece haber puesto en duda su efectividad.

Quizás su complejidad ha sido el principal motivo de su poco uso, al final, para muchos resultó ser una interesante asignatura en la etapa de formación.  Pero considero que las organizaciones no se han perdido de mucho, al final, las clasificaciones o el análisis predictivo, poco pueden hacer para “anticiparnos al futuro”, claro, salvo mejor opinión.

El Cisne Negro en el BI (V Parte) y la Gestión Inteligente del Riesgo (GRC++)

Creemos que anticiparse al futuro, no es preocuparse en el “cuándo”, sino más bien en el “cómo”, y esta línea la disciplina que se perfila como la más idónea, a nuestro parecer, es el GRC (Governance, Risk management, and Compliance), la cual no debe ser vista como una “herramienta” para facilitar el cumplimiento de leyes y normas o para superar procesos de auditoria.


Debemos reconocer nuestras pocas habilidades para vaticinar el futuro y considerar que técnicas como la minería de datos o lo estadística, sólo nos brindará una instantánea de una situación determinada, cuya validez se limita a un espacio de tiempo muy reducido, porque el comportamiento humano y otras tantas variables que conforman cualquier modelo, no obedecen a modelos matemáticos o tendencias duraderas, sino al libre albedrío.  La coyuntura actual y la triste extinción de muchas organizaciones es la prueba de ello.

Creemos que anticiparse al futuro, no es preocuparse en el “cuándo”, sino más bien en el “cómo”, y esta línea la disciplina que se perfila como la más idónea, a nuestro parecer, es el GRC (Governance, Risk management, and Compliance), la cual no debe ser vista como una “herramienta” para facilitar el cumplimiento de leyes y normas o para superar procesos de auditoria.

Risk Intelligence

Un concepto interesante leemos en el blog de Norman Marks (nuestro referente en GRC)Podríamos afirmar que la gestión inteligente del riesgo, es un concepto mucho más amplio que normalmente se le da al GRC.  El Risk Intelligence (RI) considera, no tan sólo no cometer errores, sino saber detectar oportunidades, implicándose más en la cultura de las empresas y en los colaboradores de la organización, porque las decisiones se toman en todos los niveles.

Un aspecto relevante de este enfoque es su tolerancia al “fracaso”, el cual no debería ser visto como la perdida o daño, porque este puede ser impulsor de la superación e innovación.

Los directivos tienen necesidad de anticiparse a lo inesperado (Cisnes Negros / Black Swans) para ser más preactivos y obtener las ventajas de ser el primero y focalizar sus decisiones a más largo plazo.

El surgimiento de nuevos modelos de negocio, los cambios en las preferencias de los consumidores o la evolución de las “nuevas tecnologías”, exigen agilidad que no se logra evitando problemas o elaborando modelos matemáticos. Una alternativa es detectar en el riesgo sus oportunidades, para brindar valor y ventaja competitiva a la organización.

Referencia:

El Cisne Negro en el BI (II Parte) y la Minería de Datos

Como señala el autor del Cisne Negro, predecir y acertar es cuestión de suerte, no se puede predecir cuando ocurrirá un terremoto, pero si se podría cuantificar sus consecuencias y estar preparados para una reacción inmediata.


Por todos los sucesos que ocurren a diario, difíciles de predecir y desde que leímos las primeras páginas del libro de Nassim Nicholas Taleb, estamos dudando un poco más sobre la efectividad de la Minería de Datos.  El también llamado data mining, es quizás la técnica menos implementada de todas las que componen el Business Intelligence, creemos que se debe por su mayor complejidad y la necesidad de tener unos conocimientos adicionales como la estadística.

Recuperando la definición sobre minería de datos, de una de las mejores fuentes bibliográficas que tenemos de referencia, señala textualmente lo siguiente:

“La minería de datos tiene como objetivo analizar los datos para extraer conocimiento.  Este conocimiento puede ser en forma de relaciones, patrones o reglas inferidas de los datos y (previamente) desconocidos, o bien e forma de una descripción más concisa (es decir, un resumen de los mismos). Estas relaciones o resúmenes constituyen el modelo de datos analizado. Existen muchas formas diferentes de representar los modelos y cada una de ellas determina el tipo de técnica que puede usarse para inferirlos.

En la práctica, los modelos pueden de dos tipo: predictivos o descriptivos.  Los modelos predictivos pretenden estimar valores futuros o desconocidos…

Los modelos descriptivos, en cambio, identifican patrones que explican o resumen los datos, es decir, sirven para explorar las propiedades de los datos examinados,…”

Sobre la categorización o clasificación según patrones, por ejemplo aplicado en las personas, estos se trastocan con mayor celeridad que antes, Internet y todos los fenómenos que conlleva, como las redes sociales, contribuyen a la evolución o abandono de estos patrones en unos cuantos clics, son tantos los datos que se podrían analizar, que la técnica basada en la agrupación y resumen, deja en el camino características particulares de mayor relevancia.

Esta comprobado que la facultad de predicción es inexistente, entidades revisoras de riesgo financiero, gobiernos, Gartner con sus predicciones anuales sobre la tecnología que  se implementará y luego no valora su grado de acierto o el mismo Google, con la cantidad de información que manipula a fracasado con el lanzamiento de más de un producto, el último Google Wave.  Como señala el autor del Cisne Negro, predecir y acertar es cuestión de suerte, no se puede predecir cuando ocurrirá un terremoto, pero si se podría cuantificar sus consecuencias y estar preparados para una reacción inmediata.

No sugerimos que abandonen sus implementaciones de minería de datos, sólo que los modelos generados sean revisados con mayor frecuencia y que el resultado de las conclusiones sean tomandos con una información de referencia, no como la verdad absoluta.

Referencia: (anterior post) El Cisne Negro en el BI (I Parte)

Ciclo en Espiral, una alternativa a CRISP-DM

Al igual que un proceso de aprendizaje, desde el inicio, no se debería pretender a abordar todos los aspectos que se desean estudiar/mejorar dentro de la organización.


Un proyecto de minería de datos difiere mucho de cualquier otro proyecto en donde se aplique alguna tecnología de la información, inclusive de cualquier otro tipo de proyecto de Business Intelligence.  Un proyecto de minería de datos no termina con la instalación y configuración del producto a utilizar. La minería de datos es un proceso de aprendizaje, y como tal, es constante y progresivo, basándose en este principio, existe una técnica denominada “Ciclo de vida en espiral”, una metodología alternativa a CRISP-DM.

Al igual que un proceso de aprendizaje, desde el inicio, no se debería pretender a abordar todos los aspectos que se desean estudiar/mejorar dentro de la organización.  La propuesta es elegir los aspectos o necesidades más claros y relevantes y, posteriormente, logrados estos objetivos, plantearse otros.

La primera “ronda” de este proceso cíclico, puede constituir a un denominado proyecto “piloto”, a medida que el programa avance se puede ir identificando y definiendo problemas más ambiciosos ¿Cuánto debería durar el primer ciclo?, se sugiere que no debería esperarse más de seis meses para obtenerse los primeros resultados

Referencia: Introducción a la Minería de Datos ( José Hernández Orallo)

aníbal goicochea