Archivo de la categoría: Predective & Data mining

Análisis predictivo, minería de datos, minería de textos y estadísticas

Cuadrante Mágico para plataformas de Análisis Predictivo (Data Science antes Advanced Analytics)


Antes se le denominaba Advanced Analytics  ahora Data Science, en ambos casos nos referimos a herramientas de Análisis Predictivo, Minería de datos, Estadística y Exploración. A partir de este año el informe de la consultora Gartner se denomina Magic Quadrant for Data Science Platforms (hasta el año pasado se conocía como Magic Quadrant for Advanced Analytics Platforms). Este es otros de los cuadrantes de Gartner de nuestro interés.

magic-quadrant-for-data-science-platforms

Este informe no incluye herramientas de código abierto tales como R o Python, dado que no hay un fabricante exclusivo que las ofrezca, esta situación no encaja con la filosofía de la elaboración de este estudio.

Este estudio incluye, a los que Gartner considera, 16 principales fabricantes en este sector, del que se estima existan más de 100 proveedores, a los cuales se evalúan, entre otras, los siguientes aspectos:

  • Amplitud de posibilidades de acceso a datos (local y en la nube) y tipo (texto, transaccional, audio, imágenes, localización, series de tiempo, etc).
  • Posibilidades de preparación de datos.
  • Exploración de datos y visualización interactiva.
  • Opciones de automatización
  • Interfaz de usuario.
  • Aprendizaje automático o Aprendizaje de máquina (Machine learning).
  • Otras posibilidades de análisis avanzado. Tales como análisis de texto e imágenes
  • Flexibilidad y extensibilidad. Posibilidades de creación de funciones específicas.
  • Rendimiento y escalabilidad
  • Plataforma y gestión de proyectos
  • Soluciones predefinidas
  • Colaboración
  • Coherencia de plataforma

Lo que se dice en el informe sobre SAP

  • La propuesta Plataforma Científica de Datos (Data Science Platform)  se denomina SAP BusinessObjects Predictive Analytics (BOPA), este informe no incluye a SAP BusinessObjects BI, ni SAP Lumira, los cuales tienen algunas posibilidades de este tipo de herramientas.
  • Para Gartner, SAP ha perdido capacidades al no incluir posibilidades con Spark integration (alternativa de Hadoop para procesar grandes volúmenes de datos), por brindar poca integración con código abierto, Python, y su pobre despliegue en la nube.Se señala como fortaleza su integración con SAP HANA para obtener las posibilidades más avanzadas, pero al mismo tiempo se señala como una preocupación esta dependencia, lo que resulta un impedimento para empresas que no utilizan HANA como base de datos.
  • Así mismos, Gartner señala, lo que consideramos un problema de Marketing, más que técnico, nos referimos al bajo posicionamiento que tiene SAP en este sector (mind share), al ser considerado por los clientes como un proveedor no especializado. Tal vez SAP debió mantener el nombre de KXEN, plataforma que adquirió en octubre de 2013 y contaba con una trayectoria más reconocida en este exigente sector. Nos preguntamos ¿ahora que Gartner abandona el término Advanced Analytics, SAP cambiará el nombre a su producto?
Anuncios

SAP Lumira, sólo para sistemas operativos de 64 bits (o SAP BusinessObjects Lumira)


La actualización más reciente de SAP Lumira es la 1.31, la herramienta Data Discovery de SAP. Esta herramienta es una aplicación dirigida a usuarios finales con capacidades analíticas y conocimiento del negocio, permitiéndoles cargar los datos con los que desean trabajar, depurarlos, enriquecerlos (generar nuevas columnas, indicadores y jerarquías), diseñar visualizaciones, construir historias que expliquen los hechos y si desean, compartir el conocimiento obtenido.

sap-lumira-1-31-la-ultima-actualizacion-de-la-herramienta-de-data-discovery-de-sap

Desde la actualización 1.23 de SAP Lumira (también llamado SAP BusinessObjects Lumira y antes conocido como SAP Visual Intelligence) se incluye un nuevo motor para tratamiento de datos, basado en técnicas en memoria, lo que posibilita trabajar con conjuntos de datos de gran tamaño, para lo cual es necesario sistemas operativos de 64 bits. Para sistemas operativos de 32 bits se puede utilizar hasta la actualización 1.25 la cual ha tenido soporte hasta el 30 de septiembre de 2016.

product-availability-matrix-pam-de-sap-lumira-1-31

SAP sugiere que para usuarios sin un sistema operativo de 64 bits, acceden vía escritorio remoto o Citrix a equipos con Sistema Operativo 64 bits con una instalación de una actualización reciente de SAP Lumira. (Referencia: Nota SAP 2152737), se debe recordar que los sistemas operativos de 64 bits ofrecen características multi-usuario.

Si deseas probar este producto, accede al siguiente enlace para descargar una edición de prueba o trial: (aquí gratis)

Conjuntos o Sets en SAP BusinessObjects BI 4.2 SP03


Quizás muy pocos han oído sobre “Set Analysis de Business Objects 3.1, sí, de la era cuando BusinessObjects se escribía Business Objects… prehistoria del BI… La última vez que conocí un caso de uso de este componente fue en 2007 en el área de marketing para una empresa aseguradora, el objetivo que perseguían, en ese entonces, era la segmentación y clasificación de clientes. Estamos hablando de una aplicación de la plataforma de BI de Business Objects 3.1, tal como Universe Designer o Desktop Intelligence, aplicaciones contemporáneas de este producto.

Sets o Conjuntos de SAP BO BI 4.2 SP03

El último documento oficial que he encontrado sobre “Set Analysis” data del 2010. Con la llegada de la versión 4.0 de BusinessObjects esta aplicación “desapareció”. Luego de 6 años, SAP  ha recuperado “Set Analysis”  y la introducido en la actualización 4.2 SP03, liberada a mediados de agosto. Para este fin, se ha creado una nueva categoría de objetos denominado Sets cuya seguridad se podrá gestionar en la CMC. Al igual que las conexiones y universos, los sets o conjuntos serán definidos desde el Information Design Tool, la herramienta para crear universos UNX.

Conjuntos BI BO 4.2 Sp03 - Definicion

¿Qué son los Sets?

Los Sets o los conjuntos son una nueva categoría de objetos vinculados a los universos publicados en el repositorio de la plataforma BusinessObjects BI , los cuales podrán ser utilizados para elaborar consultas complejas en Web Intelligence, cuando se requiere definir filtros asociados a dimensiones cuyo valor podría estar comprendido en una lista de valores.  Los conjuntos podrán estar asociados a calendarios (temporal sets, en la aplicación anterior se denominaban Dinámicos) para observar la evolución en períodos de tiempo. Si no tuviesen calendarios se denominaran estáticos, con lo cual, se obtendrían “instantáneas” de la consulta efectuada.  

Por ejemConjuntos BI BO 4.2 Sp03plo, para obtener una relación de clientes que residan en ciertas ciudades, que tengan un rango de edad, que hayan comprado determinados productos y tuviesen hijos, con conjuntos sería tan fácil como arrastrar los conjuntos adecuados. SAP ha presentado esta funcionalidad como una herramienta para completar las tareas de las áreas de marketing y aplicaciones CRM (Customer Relationship Management).

CMC de SAP BusinessObjects BI 4.2 SP03

Particularmente observamos que los conceptos y filosofía de trabajo de los Conjuntos o Sets de la 4.2 SP03 son los mismos de Set Analysis 3.1 de hace seis años atrás. La definición al comienzo parece algo compleja, pero será cuestión de habituarse al procedimiento.

Estadística: ¿De qué “promedio” estamos hablando?


Los “estudios” sobre características o hábitos de las personas proliferan por todas partes, y en todos ellos se impone el término “promedio”, tratando de transmitir, como verdad absoluta e irrefutable, las conclusiones de estos “análisis”.  Pero la palabra “promedio” tiene un significado muy vago, al utilizarla, deberíamos tener la certeza de qué estamos hablando: media aritmética, mediana o moda.

Debe tener presente que cuando se quiere obtener un valor elevado se recurre a la media aritmética. Por ejemplo, si se desea informar sobre los ingresos medios de una muestra, la media aritmética se obtendrá sumando todos los ingresos de cada elemento y dividiendo esta suma por el número de elementos sumados.

En el caso de la mediana, si nos informan un valor tal como “X”, para el ejemplo de los ingresos promedio, nos estarán señalando que la mitad de la muestra tiene unos ingresos superiores a “X” y que la otra mitad dispone de unos ingresos inferiores a “X”.  La moda, es la cifra que aparece el mayor número de veces en una distribución, en comparación con cualquier otra cantidad.

Los distintos promedios suelen coincidir sólo cuando se analizan características físcas humanas, los cuales suelen estar dentro de lo que se denominan una “distribución normal”, si se representa con un gráfico de líneas, se podría obtener una “campana”, coincidiendo la media, mediana y moda casi en el mismo punto. En cambio, si se representa gráficamente un valor como los ingresos, obtendríamos una representación similar a un “tobogán”, dónde la mediana y la media estarían en puntos considerablemente alejados.

Si en el estudio que estamos leyendo no se señala en cada valor informado que tipo de promedio se ha obtenido, ese valor no tiene ninguna utilidad al poder tener tres posibles interpretaciones.

Referencia: Como mentir con estadísticas (Darrell Huff)

Estadística: Factores a tener en cuenta al buscar una muestra


La muestra escogida al azar es la mejor fuente que puede examinarse con completa confianza por medio de la teoría estadística, pero lamentablemente es difícil y costosa de obtener. Un sustituto más económico, es la denominada muestra al azar por estratos para encuestas de opinión, el cual consiste en dividir la población por partes, tomándose grupos proporcionales a los mismos.

Pero sin embargo, las encuestas, muchas veces recurridas para obtener una muestra, se pueden ver influenciadas por todos los elementos que la componen, por este motivo, se debe tener en consideración lo siguiente:

  • Las muestras de la población escogidas distan mucho de ser tomadas al azar y podrían ser no del todo representativas.
  • Cualquier cuestionario no es sino una muestra de las posibles preguntas que podrían formularse.
  • Las respuestas obtenidas no es sino una muestra de la actitud y experiencia de cada encuestado sobre cada una de las cuestiones consultadas.
  • Los componentes del equipo de investigadores, con su actitud, inconscientemente, podrían influir en los resultados.

Para comprobar la calidad de una muestra tomada al azar, formule la siguiente pregunta: ¿tiene cada nombre o cosa del grupo total la misma posibilidad de formar parte de esta muestra? Y por otro lado, analice si las preguntas a formular son las idóneas en el contexto en que se formulen.

Referencia: Como mentir con estadísticas (Darrell Huff)

Fuzzifiquemos el Análisis de datos (Lógica Difusa – Fuzzy Logic)


La lógica binaria ha demostrado no ser lo más indicado para el análisis de datos, sobre todo cuando se está tratando datos de naturaleza tan ambigua y dispersa como los que están asociados a las personas, llámese clientes, colaboradores, proveedores, empresas, etc. Asignarle un valor único, tal como un cero o un uno (o verdadero/falso o blanco/negro o grande/pequeño,…) a una determinada característica en un mundo que tiene una amplia variedad de matices, puede ser de poca utilidad o conllevar a tomar las decisiones menos adecuadas.

En nuestras implementaciones de Business Intelligence o Business Analytics deberíamos tender a ofrecer un análisis de datos similar al que se logra con el razonamiento humano, es aquí donde la “Lógica difusa” (Fuzzy Logic) debería tenerse presente. No se trata de un nuevo concepto, fue introducido en 1965, pero es de estos conceptos resucitados y potenciados ahora por las mejoras en la capacidad de procesamiento y por la necesidad de lograr sistemas más útiles en un nuevo contexto con mayor incertidumbre.

Como señala el artículo de referencia, “la lógica difusa se aplica en una amplia variedad de campos relacionados, directa o indirectamente, con la comprensión de la información. Las técnicas de lógica difusa permiten estudiar los datos desde la ambigüedad del propio lenguaje, es decir, comprenderlos como los comprenderían las personas”. La lógica difusa extiende la lógica binaria para ofrecer un abanico de respuestas o valores que puede ser asignado a un elemento que se contendría entre lo completamente cierto y lo completamente falso (Ref. Wikipedia).

Por ejemplo, en la clasificación, segmentación o catalogación de elementos, siguiendo procedimiento clásicos, se concluye en la asignación de los elementos a un segmento en concreto, pero la realidad no siempre es tan clara o exacta porque un mismo elemento puede pertenecer a más de un segmento. Utilizando técnicas de “fuzzy” (fuzzy clustering) se podría identificar la pertenencia de los elementos a los distintos segmentos identificados e inclusive, se podría lograr obtener su grado de pertenencia a cada segmento.

En teoría, todo o casi todo se podría “fuzzificar”, lamentablemente hay pocas herramientas de minería de datos que brinden esta capacidad de procesamiento (ver la propuesta de Matlab), pero conociendo la técnica podríamos lograr resultados más útiles para la toma de decisiones.

Referencia: Harvard Deusto (Nro. 234. Artículo “El gran potencial de la lógica difusa” de Mónica Casabayó y Núria Agell)

Novedades en SAP InfiniteInsight 7.0


SAP InfiniteInsight es una de las dos principales soluciones de Análisis Predictivo del portfolio de SAP Predictive Analytics que recientemente ha tenido una actualización. La 7.0 es la primera actualización de este producto que se integró a la familia SAP luego de la adquisición de la empresa KXEN. Según los primeros planes de futuro de SAP, el producto de KXEN se integraría al producto desarrollado por SAP, denominado Predictive Analysis para ofrecer una única solución de Minería de datos y Predicción.

SAP InfiniteInsight solutions

Mientras tanto, la nueva actualización de InfiniteInsight ofrece las siguientes novedades:

  • Se incorpora capacidades de Geolocalización para la construcción de modelos. Se podría utilizar datos sobre latitud y longitud para definir una variable de posición.
  • Brinda herramientas para consultar modelos con variables de posición. Modelos que podrían ayudar a identificar rutas/secuencias más comunes, identificación de personas en la misma posición (Colocation).
  • A través de DataDirect 7.1 SP3 se brinda soporte a bases de datos HADOOP Hive 11 y 12 y Greenplum Database 4.2. Este mismo conector mejora la conectividad con Oracle y Teradata.
  • En cuanto a la interfaz, se han rediseñado informes, paneles e iconos para mejorar la experiencia del usuario.
  • Las Variables Compuestas es otra novedad de InfiniteInsight 7.0 la cual permite cruzar múltiples variables a la vez, combinando dos o más indicadores en una sola medida.

Referencia: SAP Blogs

El Magic Quadrant for Advanced Analytics Platforms 2014 (Minería de datos) Parte 2/2


El Cuadrante Mágico sobre plataformas Advanced Analytics (Magic Quadrant for Advanced Analytics Platforms) incluye a fabricantes de software cuyos productos se pueden utilizar de manera independiente de una plataforma de Business Intelligence y que deberían cubrir 13 capacidades o funcionalidades, tales cómo análisis predictivo, descriptivo, optimización, exploración, visualización, entre otros aspectos.  A continuación compartimos nuestro resumen, por orden alfabético, sobre los últimos 10 fabricantes (ver entrada anterior):

  • InfoCentricity. (En Niche Players). Empresa con sede en California (EEUU), posicionada como especialista en análisis predictivo para decisiones de riesgo crediticio en el sector bancario, pero que ha logrado tener éxito en otros sectores como en el marketing, ratail y educación. Logra los niveles más altos de satisfacción del cliente, fiabilidad del producto y proceso de actualización. A menudo es seleccionado por facilidad de uso, calidad del producto y calidad de soporte (expertos internos). Por su producto estrella (Xeno) obtiene altos niveles de satisfacción en visualización, exploración, análisis predictivo, escalabilidad del producto, entre otros aspectos. Aunque Xeno ofrece varias funcionalidades (tales como árboles de decisión, reporting, clustering o generación de variables), es considerada una herramienta del tipo “scorecard-centric” por lo que se deberá valorar si cubre la necesidades actuales y futuras que tenga una organización. Gartner considera que dado que muchos de sus directivos son ex-Fico (ver entrada anterior), al parecer no contribuyen a ver más allá de considerarse competencia de esta empresa. Clientes de referencia señalan la optimización y simulación como debilidades.
  • KNIME (En Leaders). Empresa con sede en Zurich Suiza, ofrece una plataforma de código abierto gratuita de Advanced Analytics. También ofrece una solución comercial basada en un servidor on-site o en la nube (cloud). Tiene presencia en diversas industrias, pero especialmente en educación, comunicaciones, gobiernos y ciencias de la vida (el término “life science”, además de hacer referencia a la biología, abarca también otros campos relacionados como la medicina, biomedicina, bioquímica y biodiversidad). Seleccionada con frecuencia por el soporte de código abierto, facilidad de uso y coste de licencia (valoración positiva por los usuarios que optan por la licencia de pago). Muy bien valorado por facilidad en el acceso a datos, filtrado y manipulación de datos, análisis predictivo, entre otros aspectos. A pesar del gran número de instalaciones, no tiene visibilidad más allá de la minería de datos. La simulación es un área de relativa debilidad.
  • Megaputer (En Niche Players). Empresa con sede en Indiana (EEUU) de antecedentes rusos con sede también en Moscú. Su producto estrella se denomina PolyAnalyst con amplia cobertura funcional, con fuerte integración de textos al análisis predictivo. Tiene altos niveles de satisfacción de los clientes. Seleccionada a menudo por facilidad de uso, soporte (expertos internos) y la amplia cobertura a tipos de fuentes de datos (especialmente textos). Usuarios señalan altos niveles de satisfacción por acceso a datos, filtrado y manipulación de datos, análisis descriptivos, entre otros aspectos. Carece de funcionalidades avanzadas y su interfaz de usuario requiere una modernización significativa. Los usuarios manifiestan insatifacción por la comunidad de clientes (foros y conferencias).
  • Microsoft (En Niche Players. Presente en el Cuadrante Mágico de BI 2014 en Leaders). Su capacidad de análisis predictivo está embebida en SQL Server y pueden ser utilizadas a través de un Add-in de MS Excel. Con frecuencia es seleccionada por bajo coste de implementación, alineación con inversiones en infraestructuras de datos existentes, entre otros aspectos. Clientes señalan altos niveles de satisfacción con el acceso a datos, filtrado y manipulación de datos, distribución, integración, gestión de proyectos, rendimiento y escalabilidad. A SQL Server 2012 Analysis Services le falta amplitud y profundidad, así como facilidad de uso en cuanto a las funcionalidades analíticas esperadas. Los clientes señalan como áreas de debilidad a la visualización, exploración, análisis descriptivo y análisis predictivo.
  • Oracle (En Niche Players. Presente en el Cuadrante Mágico de BI 2014 en Leaders). El componente “Advanced Analytics Option” (OAA) es opcional con la Base de Datos Oracle Enterprise Edition, ofrece varias opciones de despliegue. La integración de OAA con la base de datos Oracle significa uno de los principales motivos de su elección, además de la integración con el Lenguaje R. Se señalan altos niveles de satisfacción por el acceso a datos, análisis predictivo, análisis de textos, rendimiento, escalabilidad, entre otros aspectos. La integración de OAA con la base de datos de este fabricante puede ser vista positivamente por facilitar la escalabilidad y simplicidad, evitando la creación de copias adicionales de los datos para el análisis avanzado, pero dado que este tipos de análisis tienen un procesamiento intensivo, se debe considerar este aspecto al diseñar la arquitectura de datos para obtener el mejor rendimiento para todas las tareas de análisis. Oracle recibe percepciones negativas por su estructura de precios. La visualización, exploración, análisis descriptivo, optimización, simulación y gestión de proyectos como áreas de relativa debilidad.
  • RapidMiner. (En Leaders). Con sede en Massachusetts (EEUU). Conocida en el pasado como Rapid-I, se trata de una propuesta Open Source de minería de datos, también disponible como una solución comercial con capacidad de conectarse a amplias fuentes de datos y grandes volúmenes de información. Se reportan buenos niveles de satisfacción general. Se citan altos niveles de satisfacción en acceso a datos, filtrado y manipulación de datos y análisis predictivo. Se selecciona frecuentemente por facilidad de uso, costo de licencia, velocidad en el desarrollo de modelos y capacidad para construir una gran cantidad de modelos (ofrece plantillas que guían en los caos más comunes de predicción). La gestión de proyectos, entre otros aspectos, se señala como área de relativa debilidad.
  • Revolution Analytics. (En Visionaries). Con sede en California (EEUU) brinda una multiplataforma y un ecosistema de alianzas para fomentar el uso del Lenguaje R. Revolution Analytics tiende a ser la opción predeterminada cuando se busca una solución basada en R. A menudo es seleccionada por sus características Open Source y el coste bajo de licencias. Cliente señalan altos niveles de satisfacción en los componentes de acceso a los datos, análisis descriptivo avanzado, análisis predictivo y simulación. Usuarios señalan que los precios no son predecibles o controlables. No se señalan problemas de rendimiento destacados. Clientes señalan la visualización, exploración, gestión de proyectos y experiencia del usuario como áreas de relativa debilidad.
  • SAP. (En Challengers. Presente en el Cuadrante Mágico de BI 2014 en Leaders). Lo comentamos en una próxima entrada.
  • SAS. (En Leaders. Presente en el Cuadrante Mágico de BI 2014 en Leaders). Con sede en Carolina del Norte (EEUU), con más de 40.000 clientes y el mayor ecosistema de usuarios y socios, con fuerte presencia en la banca, seguros, servicios y gobiernos. SAS cuenta con el porfolio de productos más amplio del mercado, comparable sólo con los productos de entornos basados en el Lenguaje R. Pero sin embargo existe demasiada fragmentación de productos o existen múltiples productos para un mismo fin. Seleccionada a menudo por la calidad del producto, disponibilidad de perfiles y capacidad de modelar sobre amplios volúmenes de datos. Altos niveles de satisfacción se señalan por el acceso a datos, filtrado y manipulación de datos, análisis descriptivos avanzados, análisis predictivo y en otros componentes de análisis avanzado. Se señalan algunas referencias de insatisfacción por el coste elevado de licencias. Se espera que la complejidad de uso del producto sea mejorada con “SAS Visual Statistics”.
  • StatSoft. (En Challengers). Con sede en Oklahoma (EEUU) pionera en el análisis avanzado, tiene uso en todas las industrias y regiones del mundo. Tiene altos niveles de satisfacción del cliente en general, recibe algunas de las más altas valoraciones por fiabilidad del producto y experiencia de actualización. Usualmente elegida por facilidad en el desarrollo de modelos, costo de licencia y soporte una amplia variedad de tipos de datos (incluyendo no-estructurados). Se señalan altos niveles de satisfacción en análisis descriptivo avanzado, análisis predictivo, rendimiento y escalabilidad. Se señalan dudas en el sistema de licencias y carencias en las comunidades de usuarios. Se señalan debilidades en la gestión de proyectos.

Referencia: Gartner.com

El Magic Quadrant for Advanced Analytics Platforms 2014 (Minería de datos) Parte 1/2


La primera edición del “Magic Quadrant for Advanced Analytics Platforms”, es decir, el estudio elaborado por la consultora Gartner sobre las principales propuestas de minería de datos (además de otras funcionalidades analíticas), incluye a los fabricantes que cumplan lo siguiente:

  • Deben ofrecer Advanced Analytics (AA) como un producto independiente que se puede implementar y utilizar por separado de otras aplicaciones de Business Intelligence (BI) o de negocios. Debe se un producto que soporte distintos casos de uso en toda una organización (application-neutral), en lugar de una aplicación empaquetada para un dominio específico o problema de negocio
  • El producto de brindar al menos tres enfoques diferentes para el análisis predictivo, y tres enfoques de análisis descriptivo avanzado, optimización o simulación.
  • Generar al menos 2 millones de US$ en ingresos anuales por licencias de software relacionado Advanced Analytics, o contar con más de 1000 implementaciones activas.
  • Al menos el 15% de sus ingresos se deben provenir fuera de la región de origen del fabricante.
  • En este estudio debe haber logrado un mínimo de 15 encuestas a clientes completas.

Magic Quadrant for Advanced Analytics Platforms 2014 (Gartner)

Son 16 empresas las protagonistas de este estudio, casi la totalidad se trata de empresas con sede en EEUU, algunas de ellas también figuran en el Cuadrante Mágico de Business Intelligence 2014. A continuación señalamos, por orden alfabético, las 6 primeras:

  • Actuate (En Niche Players. Presente en el Cuadrante Mágico de BI 2014 en Niche Players). Empresa con sede en California (EEUU), orientada a la visualización de datos, su propuesta AA es incipiente. La adquisición de la española Quiterian refuerza su apuesta por este sector. Los usuarios señalan problemas sin solución, niveles bajos de satisfacción de calidad del producto, mala comunicación con el proveedor y problemas en las actualizaciones.
  • Alpine Data Labs (En Niche Players). Empresa son sede en California (EEUU), ofrece una plataforma de análisis big data sobre Hadoop y plataformas paralelas. Brinda importantes funciones de colaboración especialmente para el análisis predictivo, para desarrollar los modelos y su reutilización. Clientes reportan niveles altos de satisfacción, pero señalan carencias o debilidades en visualización, exploración y gestión de proyectos.
  • Alteryx (En Visionaries. Presente en el Cuadrante Mágico de BI 2014 en Visionaries). Empresa con sede en California (EEUU), ofrece una plataforma que facilita la combinación de datos propios, con los de terceros y en la nube, para analizarlos. Al igual que se señala en el Cuadrante Mágico de BI, se destaca su novedosa interfaz de usuario que facilita su uso, logrando altos niveles de satisfacción en varios tipos de funciones (accesos a datos y manipulación de datos). Se considera como un producto dirigido al usuario de negocio y no para usuarios expertos o científico de datos porque carece de funciones avanzadas. Usuarios reportan problemas de fiabilidad y en las actualizaciones. Al igual que el proveedor anterior, los usuarios señalaron debilidades en visualización, exploración y gestión de proyectos.
  • Angoss. (En Challengers). Con sede en Canadá, con su producto basado en árboles de decisión, denominado KnowledgeSEEKER, tiene una larga trayectoria en análisis avanzado centrándose en análisis de riesgos, análisis de marketing y analítica CRM, con una fuerte presencia en el sector financiero. En esta encuesta obtiene altos niveles de satisfacción en visualización, exploración y análisis predictivo. Gartner considera que podría mejorar como proveedor independiente y por consiguiente su atractivo como un candidato a ser adquirido. Aun no ofrece funciones avanzadas tales como análisis gráfico o análisis de serie temporales. Los usuarios señalan debilidades en el filtrado de datos, simulación y gestión de proyectos.
  • FICO. (En Niche Players). Empresa con sede en California (EEUU) focalizada en el sector bancario, seguros, retail y salud, con una creciente presencia en otros sectores. Obtiene buenos niveles de satisfacción y fiabilidad de producto. Es seleccionado por la capacidad de construir modelos con precisión y eficacia sobre grandes volúmenes de datos con varias variables. Los usuarios señalan limitaciones en visualización y exploración.
  • IBM. (En Leaders. Presente en el Cuadrante Mágico de BI 2014 en Leaders). Con sede en Chicago (EEUU). Su propuesta se basa en SPSS, empresa que adquirió en 2009, que complementa con Watson e ILOG bajo lamarca corporativa Smart Planet. Seleccionado con frecuencia por la rapidez con la que se construye un modelo, facilidad de uso y calidad del producto (usuarios señalan alta satisfacción en acceso a datos, análisis descriptivo, análisis predictivo, escalabilidad del producto, entre otros aspectos). Los usuarios señalan referencias negativas a la estructura de precios (basada en usuarios y cores, también señalan debilidad en las características de simulación.

Referencia: Gartner.com

Las tendencias en el “Advanced Analytics” (minería de datos)


Gartner, este año 2014, ha presentado el primer Cuadrante Mágico sobre las herramientas de Análisis Avanzado (Magic Quadrant for Advanced Analytics Platforms), hasta el pasado año la minería de datos y las funciones estadísticas eran consideradas capacidades que debería incluir una plataforma de Business Intelligence.

Según este nuevo estudio de Gartner, el Advanced Analytics está extendido por todo el mundo, pero es en América del Norte y Europa dónde se encuentran los más grandes mercados. En cuanto a las industrias que lo aplican, Gartner encuentra casos de uso en todas las industrias, pero es en el sector financiero, retail, comercio electrónico y comunicaciones dónde estarían las implementaciones más grandes.

El término Advanced Analytics es relativamente reciente, pero las tecnologías que incluyen existen desde hace más de 20 años, por lo que se considera un mercado maduro y estable, el cual tiene un creciente interés para los usuarios, impulsado principalmente por el “fenómeno big data”. Gartner señala las siguientes tendencias en Advanced Analytics:

  • El interés de aplicar Advanced Analytics en la gestión se está extendiendo a otras unidades negocio dentro de las empresas, además de las clásicas implementaciones en marketing y gestión del riesgo.
  • El incremento en el volumen y variedad en las fuentes de datos, especialmente por las de tipo no-estructuradas, obligan a contar con usuarios y herramientas con mayores niveles de sofisticación para logar obtener todo el potencial de la información.
  • La creciente demanda de capacidades Advanced Analytics está superando la oferta de usuarios expertos.