Big Data – aníbal goicochea

Los riesgos de adoptar una moda o tendencia sin conocerla

El auge de las redes sociales trajo consigo una serie de tareas, funciones y responsabilidades que se transformaron en cargos o puestos de trabajo en las organizaciones, quizás el más mentado sea el de Commnuty Managers. Se leía y aun se lee solicitudes de perfiles tan ambiguos que podrían ajustarse a cualquier otra función. Algo similar sucede en el mundo del Business Intelligence y Business Analytics.

Hemos visto una oferta de trabajo cuyo nombre del cargo resulta muy dispar con la descripción del perfil solicitado. Solicitan un “Gente de Business Intelligence y Big Data”, pero si leemos los requisitos, concluiremos que estos mismos podrían aplicarse para un consultor senior o un gerente de Business Intelligence.

El punto de partida sería preguntarse ¿Big Data es el problema o es la solución? Para nosotros, Big Data es la descripción de una situación, una necesidad de incluir en la gestión de los negocios, todas las diversas fuentes de información que la rodean. Para lograr este objetivo hay una serie de metodologías, técnicas y herramientas, tanto para acondicionar los datos como explotarlos o analizarlos.

Para acometer un proyecto de Big Data nos apoyaríamos de varias tecnologías, entre ellas del Business Intelligence y Business Analytics, especialmente de la minería de datos y estadísticas. Pero también se requiere tener conocimientos de otros recursos como puede ser los marcos de trabajo que ofrece Hadoop o inclusive la oferta que ofrece SAP con SAP HANA y otras bases de datos con técnicas con almacenamiento columnar o procesamiento en memoria. Big Data no es una moda, es una tendencia que conlleva un contenido de recursos tan amplio como su mismo nombre lo indica.

Referencia: Más sobre Big Data en este blog

Una guía de AWS para el Análisis de Opiniones

Preferimos la expresión Análisis de Opiniones antes de la traducción literal de Sentiment Analysis (Análisis de sentimientos), a partir de aquí muchas otras expresiones se han acuñado tales como opinión mining, todas estas hacen referencia a más o menos a lo mismo: conjunto de métodos y herramientas para explorar, examinar y procesar datos dirigidos a identificar respuestas subjetivas, usualmente el estado de ánimo general o las opiniones de un grupo específico de personas sobre un tema en concreto.

Preferimos la expresión Análisis de Opiniones antes de la traducción literal de Sentiment Analysis (Análisis de sentimientos), a partir de aquí muchas otras expresiones se han acuñado tales como opinión mining, todas estas hacen referencia a más o menos a lo mismo: conjunto de métodos y herramientas para explorar, examinar y procesar datos dirigidos a identificar respuestas subjetivas, usualmente el estado de ánimo general o las opiniones de un grupo específico de personas sobre un tema en concreto.

Los datos utilizados para estas tareas de análisis son usualmente extraídos desde los denominados medios sociales por el volumen y variedad de fuentes que puede representar. Por ejemplo, una empresa lanza al mercado un nuevo producto, desea conocer y medir las reacciones del público en general, la vía menos tradicional es recurrir a fuentes como Twitter o Facebook para realizar este análisis.

Amazon Web Service (AWS) ofrece una serie de recursos técnicos para soluciones cloud computing, entre ellas, para análisis de grandes volúmenes de datos (Big Data). “Getting Started Guide: Analyzing Big Data with AWS” es una guía paso a paso para implementar una solución de análisis de opiniones basada en los recursos de AWS y la API de Twitter, una vía rápida para introducir una organización a la era Big Data. Una solución AWS se podrá redimensionar según los resultados, facilidad propia de una arquitectura cloud.

En la predicción como en el Big Data, el tamaño sí importa

La estadística y la minería de datos no son sinónimo de exactitud, a través de estas técnicas no se obtendrá certezas, si son correctamente utilizadas, se obtendrán buenas aproximaciones. Cuando se señala, por ejemplo, que de cada 10 personas 6 aceptarían un nuevo producto, no es lo mismo indicar esta afirmación si se llega a esta conclusión con un estudio realizado sobre 100 personas que realizado sobre 1.000.000.

La estadística y la minería de datos no son sinónimo de exactitud, a través de estas técnicas no se obtendrá certezas, si son correctamente utilizadas, se obtendrán buenas aproximaciones. Cuando se señala, por ejemplo, que de cada 10 personas 6 aceptarían un nuevo producto, no es lo mismo indicar esta afirmación si se llega a esta conclusión con un estudio realizado sobre 100 personas que realizado sobre 1.000.000.

Las posibilidades que una afirmación, como el ejemplo señalado en el párrafo anterior, se repita o sea más aproximada a la realidad, dependerán del tamaño de la muestra del estudio, es decir, que volumen de subconjunto global de datos se está utilizando (tamaño de la muestra). Para cualquier estudio será imposible obtener información de todo un público objetivo, pero si la muestra es lo suficientemente grande, el denominado “margen de error” o “error de muestreo” será más pequeño.

El margen de error nos señala en que porcentaje podría variar una predicción o estimación si el tamaño de la muestra variaría. Mientras más datos analicemos, habrá menores posibilidades de encontrar en la realidad datos distintos o no incluidos en nuestro estudio, asumiendo, en todo momento, que los datos han sido recopilados siguiendo pautas adecuadas, por consiguiente son válidos y fiables.

Cuando señalamos que es tiempo de Big Data, no lo señalamos porque está de moda mencionarlo, sino porque hoy, a diferencias de épocas pasadas, se cuenta con la capacidad de incluir en el procesamiento de la información la mayor cantidad de datos posible, indispensable para las tareas análisis como la predicción.

El Big Data no necesariamente se debe vincular a las redes sociales

Hay varias definiciones sobre el Big Data, varios enfoques para tratarlo, lo más usual es la sugerencia o reclamo de ir a las redes sociales para “explotar” todo lo que se dice sobre algo o alguien. Pero encontramos en la ponencia que adjuntamos otros elementos claves muy pocas veces mencionados sobre la necesidad de analizar los grandes volúmenes de datos a los que podemos tener acceso:

Hay varias definiciones sobre el Big Data, varios enfoques para tratarlo, lo más usual es la sugerencia o reclamo de ir a las redes sociales para “explotar” todo lo que se dice sobre algo o alguien. Pero encontramos en la ponencia que adjuntamos, otros elementos claves muy pocas veces mencionados sobre la necesidad de analizar los grandes volúmenes de datos a los que podemos tener acceso:

La información valiosa no necesariamente esta en los medios sociales 2.0, la tienen las personas, se debe buscar medios que brinden fiabilidad e inmediatez para captarla y procesarla.

Pensamiento Big Data

Cuando se habla de Big Data (para nosotros, la gestión de grandes volúmenes de información) se recurre a la mención de las “V” (uves), algunos señalan entre tres y cuatro, y otros con, “más perspectiva”, hasta cinco.

Cuando se habla de Big Data (para nosotros, la gestión de grandes volúmenes de información) se recurre a la mención de las “V” (uves), algunos señalan entre tres y cuatro, y otros con, “más perspectiva”, hasta cinco.

De todas estas palabras, que se han identificado o inventado para explicar en qué consiste Big Data, nos quedamos, en primer lugar, con dos de ellas, Volumen y Variedad que describen la naturaleza de los datos, Velocidad que sintetiza la forma en que deberían ser procesados y por último, Valor, que es la sensación que debe aportar el resultado a los usuarios.

Sobre la naturaleza de los datos (p.e. estructurados y no estructurados) poco podremos hacer. Influir sobre la forma de procesamiento para que realmente sea veloz, dependerá, en gran medida, de la tecnología elegida. Quizás, sobre el factor que más influencia podrían tener los usuarios, sería la obtención de valor, entendiendo la “obtención de valor”, en este contexto, como la obtención de una nueva información, desconocida hasta entonces, que podría ser útil para tomar decisiones, aprovechar oportunidades o evitar riesgos que no se aprecian con los sistemas de información tradicionales.

¿Cómo Obtener Valor?

En una entrevista a Timo Elliott encontramos unas pautas a tener en cuenta, para lo que nosotros denominamos “Pensamiento Big Data”:

Conocer los procesos de negocio de la organización.
Conocer cómo se consume la información dentro de la organización.
Conocer los punto de decisión más críticos y encaminar las discusiones utilizando un razonamiento “Qué pasaría si (“What if”)
Utilizar herramientas de visualización que faciliten la compresión de los resultados (“what could be”).

A nuestro parecer, la clave del “Pensamiento Big Data” es plantearse preguntas tales como “¿Y si pudiéramos predecir de antemano si las entregas eran propensas a llegar tarde?” de este modo, podríamos estructurar y encaminar las necesidades de una organización y las expectativas de una autentica obtención de Valor, la “uve” más importante del Big Data.