Archivo de la etiqueta: Big Data

Los riesgos de adoptar una moda o tendencia sin conocerla


El auge de las redes sociales trajo consigo una serie de tareas, funciones y responsabilidades que se transformaron en cargos o puestos de trabajo en las organizaciones, quizás el más mentado sea el de Commnuty Managers.  Se leía y aun se lee solicitudes de perfiles tan ambiguos que podrían ajustarse a cualquier otra función.  Algo similar sucede en el mundo del Business Intelligence y Business Analytics.

Oferta de trabajo de Big Data sin fundamento

Hemos visto una oferta de trabajo cuyo nombre del cargo resulta muy dispar con la descripción del perfil solicitado. Solicitan un “Gente de Business Intelligence y Big Data”, pero si leemos los requisitos, concluiremos que estos mismos podrían aplicarse para un consultor senior o un gerente de Business Intelligence.

El punto de partida sería preguntarse ¿Big Data es el problema o es la solución? Para nosotros, Big Data es la descripción de una situación, una necesidad de incluir en la gestión de los negocios, todas las diversas fuentes de información que la rodean.  Para lograr este objetivo hay una serie de metodologías, técnicas y herramientas, tanto para acondicionar los datos como explotarlos o analizarlos.

Para acometer un proyecto de Big Data nos apoyaríamos de varias tecnologías, entre ellas del Business Intelligence y Business Analytics, especialmente de la minería de datos y estadísticas.  Pero también se requiere tener conocimientos de otros recursos como puede ser los marcos de trabajo que ofrece Hadoop o inclusive la oferta que ofrece SAP con SAP HANA y otras bases de datos con técnicas con almacenamiento columnar o procesamiento en memoria.  Big Data no es una moda, es una tendencia que conlleva un contenido de recursos tan amplio como su mismo nombre lo indica.

Referencia: Más sobre Big Data en este blog

Una guía de AWS para el Análisis de Opiniones


Preferimos la expresión Análisis de Opiniones antes de la traducción literal de Sentiment Analysis (Análisis de sentimientos), a partir de aquí muchas otras expresiones se han acuñado tales como opinión mining, todas estas hacen referencia a más o menos a lo mismo: conjunto de métodos y herramientas para explorar, examinar y procesar datos dirigidos a identificar respuestas subjetivas, usualmente el estado de ánimo general o las opiniones de un grupo específico de personas sobre un tema en concreto.

Los datos utilizados para estas tareas de análisis son usualmente extraídos desde los denominados medios sociales por el volumen y variedad de fuentes que puede representar. Por ejemplo, una empresa lanza al mercado un nuevo producto, desea conocer y medir las reacciones del público en general, la vía menos tradicional es recurrir a fuentes como Twitter o Facebook para realizar este análisis.

Amazon Web Service (AWS) ofrece una serie de recursos técnicos para soluciones cloud computing, entre ellas, para análisis de grandes volúmenes de datos (Big Data).  “Getting Started Guide: Analyzing Big Data with AWS” es una guía paso a paso para implementar una solución de análisis de opiniones basada en los recursos de AWS y la API de Twitter, una vía rápida para introducir una organización a la era Big Data. Una solución AWS se podrá redimensionar según los resultados, facilidad propia de una arquitectura cloud.

En la predicción como en el Big Data, el tamaño sí importa


La estadística y la minería de datos no son sinónimo de exactitud, a través de estas técnicas no se obtendrá certezas, si son correctamente utilizadas, se obtendrán buenas aproximaciones. Cuando se señala, por ejemplo, que de cada 10 personas 6 aceptarían un nuevo producto, no es lo mismo indicar esta afirmación si se llega a esta conclusión con un estudio realizado sobre 100 personas que realizado sobre 1.000.000.

Las posibilidades que una afirmación, como el ejemplo señalado en el párrafo anterior, se repita o sea más aproximada a la realidad, dependerán del tamaño de la muestra del estudio, es decir, que volumen de subconjunto global de datos se está utilizando (tamaño de la muestra). Para cualquier estudio será imposible obtener información de todo un público objetivo, pero si la muestra es lo suficientemente grande,  el denominado “margen de error” o “error de muestreo” será más pequeño.

El margen de error nos señala en que porcentaje podría variar una predicción o estimación si el tamaño de la muestra variaría.  Mientras más datos analicemos, habrá menores posibilidades de encontrar en la realidad datos distintos o no incluidos en nuestro estudio, asumiendo, en todo momento, que los datos han sido recopilados siguiendo pautas adecuadas, por consiguiente son válidos y fiables.

Cuando señalamos que es tiempo de Big Data, no lo señalamos porque está de moda mencionarlo, sino porque hoy, a diferencias de épocas pasadas, se cuenta con la capacidad de incluir en el procesamiento de la información la mayor cantidad de datos posible, indispensable para las tareas análisis como la predicción.

El Big Data no necesariamente se debe vincular a las redes sociales


Hay varias definiciones sobre el Big Data, varios enfoques para tratarlo, lo más usual es la sugerencia o reclamo de ir a las redes sociales para “explotar” todo lo que se dice sobre algo o alguien. Pero encontramos en la ponencia que adjuntamos, otros elementos claves muy pocas veces mencionados sobre la necesidad de analizar los grandes volúmenes de datos a los que podemos tener acceso:

La información valiosa no necesariamente esta en los medios sociales 2.0, la tienen las personas, se debe buscar medios que brinden fiabilidad e inmediatez para captarla y procesarla.

Pensamiento Big Data


Cuando se habla de Big Data (para nosotros, la gestión de grandes volúmenes de información) se recurre a la mención de las “V” (uves), algunos señalan entre tres y cuatro, y otros con, “más perspectiva”, hasta cinco. 

De todas estas palabras, que se han identificado o inventado para explicar en qué consiste Big Data, nos quedamos, en primer lugar, con dos de ellas, Volumen y Variedad que describen la naturaleza de los datos, Velocidad que sintetiza la forma en que deberían ser procesados y por último, Valor, que es la sensación que debe aportar el resultado a los usuarios.

Sobre la naturaleza de los datos (p.e. estructurados y no estructurados) poco podremos hacer.  Influir sobre  la forma de procesamiento para que realmente sea veloz, dependerá, en gran medida, de la tecnología elegida.  Quizás, sobre el factor que más influencia podrían tener los usuarios, sería la obtención de valor, entendiendo la “obtención de valor”, en este contexto, como la obtención de una nueva información, desconocida hasta entonces, que podría ser útil para tomar decisiones, aprovechar oportunidades o evitar riesgos que no se aprecian con los sistemas de información tradicionales.

¿Cómo Obtener Valor?

En una entrevista a Timo Elliott encontramos unas pautas a tener en cuenta, para lo que nosotros denominamos “Pensamiento Big Data”:

  • Conocer los procesos de negocio de la organización.
  • Conocer cómo se consume la información dentro de la organización.
  • Conocer los punto de decisión más críticos y encaminar las discusiones utilizando un razonamiento “Qué pasaría si (“What if”)
  • Utilizar herramientas de visualización que faciliten la compresión de los resultados (“what could be”).

A nuestro parecer, la clave del “Pensamiento Big Data” es plantearse preguntas tales como “¿Y si pudiéramos predecir de antemano si las entregas eran propensas a llegar tarde?” de este modo, podríamos estructurar y encaminar las necesidades de una organización y las expectativas de una autentica obtención de Valor, la “uve” más importante del Big Data.

La evolución de las tecnologías SAP para llegar a HANA


IBM es uno de los cinco socios de hardware que tiene SAP para SAP HANA, el denominado “Gigante Azul”, recientemente ha publicado un libro sobre la tecnología de procesamiento en memoria (in-memory computing) y HANA, en pocas páginas plasma importante información sobre la evolución, principales conceptos y características técnicas de esta tecnología sobre la arquitectura de IBM.

SAP HANA no es un “invento reciente”, es el resultado de la evolución de varias tecnologías que han confluido en un producto que inicialmente fue pensado sólo para mejorar las tareas de análisis de datos, pero que muy pronto, SAP identificó su potencial y cambió su alcance y ahora está llamada a ser la base de datos y plataforma sobre la que funcionarán todas las aplicaciones de SAP.

Para la innovación tecnológica, Formación interna


Pareciera que no todos lo perciben, pero estamos atravesando una importante transformación en cuanto a tecnologías para el tratamiento de la información para el análisis, como apunta el artículo de referencia, las organizaciones “requieren llegar al nirvana de la información, pero para ello necesitan personas con habilidades para manejar los datos y crear sistemas de análisis que brinden información con valor”.

Como resultado del nuevo panorama socio-económico y por las recientes y constantes innovaciones que se están generando, diversos estudios señalan que el mundo se enfrenta, en los próximos seis años, a una gran carencia de personal con habilidades analíticas, sólo en EEUU faltarían más de 140.000 analistas expertos y alrededor de 1.5 millones de gerentes y analistas especializados en Big Data.

La solución

Las organizaciones no pueden esperar la llegada de las nuevas generaciones de personal formado o que los centros de enseñanza reorganicen sus planes de estudio, que muchas veces no van al mismo ritmo que las innovaciones y las necesidades de recursos humanos.  La solución que sugiere el artículo de referencia, consiste en la identificación, dentro de las organizaciones, de las personas que pueda recibir una formación puntual, necesaria para asumir los nuevos retos.

Referencia: Smart Data Collective

Nunca formatees una “máquina” SAP HANA!!!


El pasado jueves nos conectamos al Webinar sobre SAP HANA, organizado por SAP España. Fue como entrar a un auditorio remodelado, percibimos una mejor organización, un moderador, moderadora para ser más exacto, muy atenta a la trasmisión de la señal de audio, gestionando las dudas de conexión de los participantes,las preguntas, inclusive, al final daban la oportunidad de cumplimentar una evaluación, que no aprovechamos…. Hasta ahí, estuvo bastante mejor, que en otras ocasiones. 

La Revolución HANA

Hablar de SAP HANA, es referirse al tema más importante y transcendental del mundo SAP, que no tan sólo está revolucionando el Business Intelligence, sino que lo hará en todo los ámbitos de las aplicaciones de negocio de SAP, según las palabras de los principales directivos de esta compañía, HANA es la plataforma sobre la cual funcionarán todos los productos SAP en el futuro. 

Webinar sobre HANA, decepción de contenido

Sobre el contenido del Webinar propiamente dicho, trataremos de aportar una crítica constructiva, porque nos quedamos decepcionados, su estructura no correspondía a la importancia del tema.  No sabíamos si iba dirigido a técnicos, compañeros de trabajo para que vieran las oportunidades de negocio, pero dudamos que fuera para el público en general y menos aún, para usuarios de negocio. 

Para este tipo de eventos, casi siempre es aconsejable la máxima: “menos es más”.  Nos parecía exagerada la cantidad de diapositivas, no eran un dulce para los técnicos y seguro era una confusión para los que recién abordaban este tema.

HANA, es una tecnología nueva y las implementaciones son aún muy pocas en el mundo, quizás no superen las cien, y en España, por el momento, no hay experiencias de este tipo, pero permítanos sugerir una estructura tan simple como la siguiente:

  • ¿Qué es SAP HANA? Hardware – Software – BBDD.
  • ¿Por qué debería considerar SAP HANA? Beneficios inmediatos y Oportunidades a mediano y largo plazo.
  • Experiencias e impresiones de las pruebas de concepto que se han realizado localmente.
  • Qué beneficios aporta ser el primero en adoptarlo.
  • Breve descripción de los casos internacionales (Problemática inicial y situación HANA que obtuvieron)

Para ver vídeos sobre SAP HANA publicados en Internet, podemos dirigirnos al canal de Youtube de SAP BusinessObjects… Pero de todo lo que se dijo, y que más nos impactó, fue una frase similar a la siguiente: “si por último, te cansas de HANA, puedes formatear la máquina y le das otro uso”…, plop, plop y replop!!!

Medtronic un buen ejemplo SAP HANA

Medtronic fue uno de los casos que se mencionó en el Webinar del pasado jueves, se trata de una empresa americana con sede en la ciudad de Minneapolis, estado de Minnesota, dedicada a la fabricación de instrumental médico.  Esta empresa desde hace mucho tiempo identificó como estratégico para su negocio el análisis de todo comentario formulado por cualquiera de sus clientes o cualquier otro stakeholder vinculado a la organización. 

Pero desde hacía un tiempo, la información estructurada y no estructurada que fueron obteniendo era cada vez más difícil de procesar, es a inicios del 2011 que tienen conocimiento sobre SAP HANA y ven en esta tecnología la solución a sus problemas. 

Medtronic es una de las primeras empresas en implementar SAP HANA, lo hizo sobre una plataforma UCS de Cisco, para explotar su información SAP y no SAP, estructurada y no estructurada, utilizando básicamente SAP BusinesObjects 4.0. Según cuenta Medtronic, el principal reto que tuvieron, fue identificar el origen de los datos y el mejor modo de integrarlos al modelo HANA.

Una implementación SAP HANA como la de Medtronic, no tan sólo consigue informes en segundos, que antes tardaban minutos, horas o que simplemente no se podían procesar; HANA es abrir nuevas puertas y ver otras oportunidades para satisfacer al cliente.

Referencias:


Los partners de SAP HANA


En SAP HANA, el hardware juega un papel muy importante, es por ello que SAP ha elegido a los mejores del sector como partners. Tenemos la duda que la elección del hardware repercute en el coste de la implementación, asumimos que sí.  Los socios de SAP para HANA, por el momento, son los siguientes:

HANA, la propuesta BigData de SAP


Podemos considerar que la “amenaza” de los grandes volúmenes de datos, que crece imparable año tras año en las organizaciones, siempre ha existido, y que BigData no es nada nuevo.  Sí, estamos parcialmente de acuerdo. 

La “fiebre” BigData que desde hace más de un año estamos viviendo, puede ser comparada a lo que comenzó a ocurrir con el cloud computing, hace algunos años más atrás, se afirmó que era una redefinición de conceptos.  De cualquier modo, el cloud computing, ha superado las barreras de adopción, en pequeñas o grandes organizaciones, ya se opta por alguna variante de la computación en la nube.

Consideramos que la adopción de soluciones de gestión de datos grandes (Big Data) será con la misma o mayor rapidez, porque la necesidad de la organizaciones es impostergable y las propuestas de los fabricantes han alcanzado un alto nivel de calidad y madurez.

HANA = BigData+

La propuesta de gestión de las grandes cantidades de información de SAP, se llama HANA, pero quizás sea la más completa y disruptiva de todas las propuestas existentes.  HANA no es una aplicación o una solución, es una plataforma sobre la cual se desplegarán las aplicaciones que facilitarán el análisis sino también las transacciones.

Revisando la documentación oficial SAP define del siguiente modo a HANA:

  • SAP In-Memory Appliance (SAP HANA)
    • HANA es una solución flexible, independiente del dispositivo que permite a los clientes analizar grandes volúmenes de datos de SAP ERP en tiempo real, sin la necesidad de realizar cargas o transformaciones.
    • HANA es una combinación de hardware y software que integra una serie de componentes SAP
    • incluyendo SAP In-Memory Database, Sybase Replication technology and SAP LT (Landscape Transformation) Replicator.
    • HANA se distribuye como  dispositivos optimizados de un conjunto de líderes de hardware, partners de SAP.
  • SAP In-Memory Database
    • SAP In-Memory Databas es un hibrido de base de datos en memoria, que combina tecnologías de bases de datos basada en filas, columnas y objetos.  Esta optimiazada para explotar las capacidades del procesamiento paralelo de arquitecturas multi core/CPU.
    • SAP In-Memory Database es el corazón de HANA, juntos ayudan a los clientes a mejorar su eficiencia operativa, agilidad y flexibilidad.