Estadística: Factores a tener en cuenta al buscar una muestra

La muestra escogida al azar es la mejor fuente que puede examinarse con completa confianza por medio de la teoría estadística, pero lamentablemente es difícil y costosa de obtener. Un sustituto más económico, es la denominada muestra al azar por estratos para encuestas de opinión, el cual consiste en dividir la población por partes, tomándose grupos proporcionales a los mismos.


La muestra escogida al azar es la mejor fuente que puede examinarse con completa confianza por medio de la teoría estadística, pero lamentablemente es difícil y costosa de obtener. Un sustituto más económico, es la denominada muestra al azar por estratos para encuestas de opinión, el cual consiste en dividir la población por partes, tomándose grupos proporcionales a los mismos.

Pero sin embargo, las encuestas, muchas veces recurridas para obtener una muestra, se pueden ver influenciadas por todos los elementos que la componen, por este motivo, se debe tener en consideración lo siguiente:

  • Las muestras de la población escogidas distan mucho de ser tomadas al azar y podrían ser no del todo representativas.
  • Cualquier cuestionario no es sino una muestra de las posibles preguntas que podrían formularse.
  • Las respuestas obtenidas no es sino una muestra de la actitud y experiencia de cada encuestado sobre cada una de las cuestiones consultadas.
  • Los componentes del equipo de investigadores, con su actitud, inconscientemente, podrían influir en los resultados.

Para comprobar la calidad de una muestra tomada al azar, formule la siguiente pregunta: ¿tiene cada nombre o cosa del grupo total la misma posibilidad de formar parte de esta muestra? Y por otro lado, analice si las preguntas a formular son las idóneas en el contexto en que se formulen.

Referencia: Como mentir con estadísticas (Darrell Huff)

Fuzzifiquemos el Análisis de datos (Lógica Difusa – Fuzzy Logic)

La lógica binaria ha demostrado no ser lo más indicado para el análisis de datos, sobre todo cuando se está tratando datos de naturaleza tan ambigua y dispersa como los que están asociados a las personas, llámese clientes, colaboradores, proveedores, empresas, etc. Asignarle un valor único, tal como un cero o un uno (o verdadero/falso o blanco/negro o grande/pequeño,…) a una determinada característica en un mundo que tiene una amplia variedad de matices, puede ser de poca utilidad o conllevar a tomar las decisiones menos adecuadas.


La lógica binaria ha demostrado no ser lo más indicado para el análisis de datos, sobre todo cuando se está tratando datos de naturaleza tan ambigua y dispersa como los que están asociados a las personas, llámese clientes, colaboradores, proveedores, empresas, etc. Asignarle un valor único, tal como un cero o un uno (o verdadero/falso o blanco/negro o grande/pequeño,…) a una determinada característica en un mundo que tiene una amplia variedad de matices, puede ser de poca utilidad o conllevar a tomar las decisiones menos adecuadas.

En nuestras implementaciones de Business Intelligence o Business Analytics deberíamos tender a ofrecer un análisis de datos similar al que se logra con el razonamiento humano, es aquí donde la “Lógica difusa” (Fuzzy Logic) debería tenerse presente. No se trata de un nuevo concepto, fue introducido en 1965, pero es de estos conceptos resucitados y potenciados ahora por las mejoras en la capacidad de procesamiento y por la necesidad de lograr sistemas más útiles en un nuevo contexto con mayor incertidumbre.

Como señala el artículo de referencia, “la lógica difusa se aplica en una amplia variedad de campos relacionados, directa o indirectamente, con la comprensión de la información. Las técnicas de lógica difusa permiten estudiar los datos desde la ambigüedad del propio lenguaje, es decir, comprenderlos como los comprenderían las personas”. La lógica difusa extiende la lógica binaria para ofrecer un abanico de respuestas o valores que puede ser asignado a un elemento que se contendría entre lo completamente cierto y lo completamente falso (Ref. Wikipedia).

Por ejemplo, en la clasificación, segmentación o catalogación de elementos, siguiendo procedimiento clásicos, se concluye en la asignación de los elementos a un segmento en concreto, pero la realidad no siempre es tan clara o exacta porque un mismo elemento puede pertenecer a más de un segmento. Utilizando técnicas de “fuzzy” (fuzzy clustering) se podría identificar la pertenencia de los elementos a los distintos segmentos identificados e inclusive, se podría lograr obtener su grado de pertenencia a cada segmento.

En teoría, todo o casi todo se podría “fuzzificar”, lamentablemente hay pocas herramientas de minería de datos que brinden esta capacidad de procesamiento (ver la propuesta de Matlab), pero conociendo la técnica podríamos lograr resultados más útiles para la toma de decisiones.

Referencia: Harvard Deusto (Nro. 234. Artículo “El gran potencial de la lógica difusa” de Mónica Casabayó y Núria Agell)

Novedades en SAP InfiniteInsight 7.0

SAP InfiniteInsight es una de las dos principales soluciones de Análisis Predictivo del portfolio de SAP Predictive Analytics que recientemente ha tenido una actualización. La 7.0 es la primera actualización de este producto que se integró a la familia SAP luego de la adquisición de la empresa KXEN. Según los primeros planes de futuro de SAP, el producto de KXEN se integraría al producto desarrollado por SAP, denominado Predictive Analysis para ofrecer una única solución de Minería de datos y Predicción.


SAP InfiniteInsight es una de las dos principales soluciones de Análisis Predictivo del portfolio de SAP Predictive Analytics que recientemente ha tenido una actualización. La 7.0 es la primera actualización de este producto que se integró a la familia SAP luego de la adquisición de la empresa KXEN. Según los primeros planes de futuro de SAP, el producto de KXEN se integraría al producto desarrollado por SAP, denominado Predictive Analysis para ofrecer una única solución de Minería de datos y Predicción.

SAP InfiniteInsight solutions

Mientras tanto, la nueva actualización de InfiniteInsight ofrece las siguientes novedades:

  • Se incorpora capacidades de Geolocalización para la construcción de modelos. Se podría utilizar datos sobre latitud y longitud para definir una variable de posición.
  • Brinda herramientas para consultar modelos con variables de posición. Modelos que podrían ayudar a identificar rutas/secuencias más comunes, identificación de personas en la misma posición (Colocation).
  • A través de DataDirect 7.1 SP3 se brinda soporte a bases de datos HADOOP Hive 11 y 12 y Greenplum Database 4.2. Este mismo conector mejora la conectividad con Oracle y Teradata.
  • En cuanto a la interfaz, se han rediseñado informes, paneles e iconos para mejorar la experiencia del usuario.
  • Las Variables Compuestas es otra novedad de InfiniteInsight 7.0 la cual permite cruzar múltiples variables a la vez, combinando dos o más indicadores en una sola medida.

Referencia: SAP Blogs

El Magic Quadrant for Advanced Analytics Platforms 2014 (Minería de datos) Parte 2/2

El Cuadrante Mágico sobre plataformas Advanced Analytics (Magic Quadrant for Advanced Analytics Platforms) incluye a fabricantes de software cuyos productos se pueden utilizar de manera independiente de una plataforma de Business Intelligence y que deberían cubrir 13 capacidades o funcionalidades, tales cómo análisis predictivo, descriptivo, optimización, exploración, visualización, entre otros aspectos. A continuación compartimos nuestro resumen, por orden alfabético, sobre los últimos 10 fabricantes:


El Cuadrante Mágico sobre plataformas Advanced Analytics (Magic Quadrant for Advanced Analytics Platforms) incluye a fabricantes de software cuyos productos se pueden utilizar de manera independiente de una plataforma de Business Intelligence y que deberían cubrir 13 capacidades o funcionalidades, tales cómo análisis predictivo, descriptivo, optimización, exploración, visualización, entre otros aspectos.  A continuación compartimos nuestro resumen, por orden alfabético, sobre los últimos 10 fabricantes (ver entrada anterior):

  • InfoCentricity. (En Niche Players). Empresa con sede en California (EEUU), posicionada como especialista en análisis predictivo para decisiones de riesgo crediticio en el sector bancario, pero que ha logrado tener éxito en otros sectores como en el marketing, ratail y educación. Logra los niveles más altos de satisfacción del cliente, fiabilidad del producto y proceso de actualización. A menudo es seleccionado por facilidad de uso, calidad del producto y calidad de soporte (expertos internos). Por su producto estrella (Xeno) obtiene altos niveles de satisfacción en visualización, exploración, análisis predictivo, escalabilidad del producto, entre otros aspectos. Aunque Xeno ofrece varias funcionalidades (tales como árboles de decisión, reporting, clustering o generación de variables), es considerada una herramienta del tipo “scorecard-centric” por lo que se deberá valorar si cubre la necesidades actuales y futuras que tenga una organización. Gartner considera que dado que muchos de sus directivos son ex-Fico (ver entrada anterior), al parecer no contribuyen a ver más allá de considerarse competencia de esta empresa. Clientes de referencia señalan la optimización y simulación como debilidades.
  • KNIME (En Leaders). Empresa con sede en Zurich Suiza, ofrece una plataforma de código abierto gratuita de Advanced Analytics. También ofrece una solución comercial basada en un servidor on-site o en la nube (cloud). Tiene presencia en diversas industrias, pero especialmente en educación, comunicaciones, gobiernos y ciencias de la vida (el término “life science”, además de hacer referencia a la biología, abarca también otros campos relacionados como la medicina, biomedicina, bioquímica y biodiversidad). Seleccionada con frecuencia por el soporte de código abierto, facilidad de uso y coste de licencia (valoración positiva por los usuarios que optan por la licencia de pago). Muy bien valorado por facilidad en el acceso a datos, filtrado y manipulación de datos, análisis predictivo, entre otros aspectos. A pesar del gran número de instalaciones, no tiene visibilidad más allá de la minería de datos. La simulación es un área de relativa debilidad.
  • Megaputer (En Niche Players). Empresa con sede en Indiana (EEUU) de antecedentes rusos con sede también en Moscú. Su producto estrella se denomina PolyAnalyst con amplia cobertura funcional, con fuerte integración de textos al análisis predictivo. Tiene altos niveles de satisfacción de los clientes. Seleccionada a menudo por facilidad de uso, soporte (expertos internos) y la amplia cobertura a tipos de fuentes de datos (especialmente textos). Usuarios señalan altos niveles de satisfacción por acceso a datos, filtrado y manipulación de datos, análisis descriptivos, entre otros aspectos. Carece de funcionalidades avanzadas y su interfaz de usuario requiere una modernización significativa. Los usuarios manifiestan insatifacción por la comunidad de clientes (foros y conferencias).
  • Microsoft (En Niche Players. Presente en el Cuadrante Mágico de BI 2014 en Leaders). Su capacidad de análisis predictivo está embebida en SQL Server y pueden ser utilizadas a través de un Add-in de MS Excel. Con frecuencia es seleccionada por bajo coste de implementación, alineación con inversiones en infraestructuras de datos existentes, entre otros aspectos. Clientes señalan altos niveles de satisfacción con el acceso a datos, filtrado y manipulación de datos, distribución, integración, gestión de proyectos, rendimiento y escalabilidad. A SQL Server 2012 Analysis Services le falta amplitud y profundidad, así como facilidad de uso en cuanto a las funcionalidades analíticas esperadas. Los clientes señalan como áreas de debilidad a la visualización, exploración, análisis descriptivo y análisis predictivo.
  • Oracle (En Niche Players. Presente en el Cuadrante Mágico de BI 2014 en Leaders). El componente “Advanced Analytics Option” (OAA) es opcional con la Base de Datos Oracle Enterprise Edition, ofrece varias opciones de despliegue. La integración de OAA con la base de datos Oracle significa uno de los principales motivos de su elección, además de la integración con el Lenguaje R. Se señalan altos niveles de satisfacción por el acceso a datos, análisis predictivo, análisis de textos, rendimiento, escalabilidad, entre otros aspectos. La integración de OAA con la base de datos de este fabricante puede ser vista positivamente por facilitar la escalabilidad y simplicidad, evitando la creación de copias adicionales de los datos para el análisis avanzado, pero dado que este tipos de análisis tienen un procesamiento intensivo, se debe considerar este aspecto al diseñar la arquitectura de datos para obtener el mejor rendimiento para todas las tareas de análisis. Oracle recibe percepciones negativas por su estructura de precios. La visualización, exploración, análisis descriptivo, optimización, simulación y gestión de proyectos como áreas de relativa debilidad.
  • RapidMiner. (En Leaders). Con sede en Massachusetts (EEUU). Conocida en el pasado como Rapid-I, se trata de una propuesta Open Source de minería de datos, también disponible como una solución comercial con capacidad de conectarse a amplias fuentes de datos y grandes volúmenes de información. Se reportan buenos niveles de satisfacción general. Se citan altos niveles de satisfacción en acceso a datos, filtrado y manipulación de datos y análisis predictivo. Se selecciona frecuentemente por facilidad de uso, costo de licencia, velocidad en el desarrollo de modelos y capacidad para construir una gran cantidad de modelos (ofrece plantillas que guían en los caos más comunes de predicción). La gestión de proyectos, entre otros aspectos, se señala como área de relativa debilidad.
  • Revolution Analytics. (En Visionaries). Con sede en California (EEUU) brinda una multiplataforma y un ecosistema de alianzas para fomentar el uso del Lenguaje R. Revolution Analytics tiende a ser la opción predeterminada cuando se busca una solución basada en R. A menudo es seleccionada por sus características Open Source y el coste bajo de licencias. Cliente señalan altos niveles de satisfacción en los componentes de acceso a los datos, análisis descriptivo avanzado, análisis predictivo y simulación. Usuarios señalan que los precios no son predecibles o controlables. No se señalan problemas de rendimiento destacados. Clientes señalan la visualización, exploración, gestión de proyectos y experiencia del usuario como áreas de relativa debilidad.
  • SAP. (En Challengers. Presente en el Cuadrante Mágico de BI 2014 en Leaders). Lo comentamos en una próxima entrada.
  • SAS. (En Leaders. Presente en el Cuadrante Mágico de BI 2014 en Leaders). Con sede en Carolina del Norte (EEUU), con más de 40.000 clientes y el mayor ecosistema de usuarios y socios, con fuerte presencia en la banca, seguros, servicios y gobiernos. SAS cuenta con el porfolio de productos más amplio del mercado, comparable sólo con los productos de entornos basados en el Lenguaje R. Pero sin embargo existe demasiada fragmentación de productos o existen múltiples productos para un mismo fin. Seleccionada a menudo por la calidad del producto, disponibilidad de perfiles y capacidad de modelar sobre amplios volúmenes de datos. Altos niveles de satisfacción se señalan por el acceso a datos, filtrado y manipulación de datos, análisis descriptivos avanzados, análisis predictivo y en otros componentes de análisis avanzado. Se señalan algunas referencias de insatisfacción por el coste elevado de licencias. Se espera que la complejidad de uso del producto sea mejorada con “SAS Visual Statistics”.
  • StatSoft. (En Challengers). Con sede en Oklahoma (EEUU) pionera en el análisis avanzado, tiene uso en todas las industrias y regiones del mundo. Tiene altos niveles de satisfacción del cliente en general, recibe algunas de las más altas valoraciones por fiabilidad del producto y experiencia de actualización. Usualmente elegida por facilidad en el desarrollo de modelos, costo de licencia y soporte una amplia variedad de tipos de datos (incluyendo no-estructurados). Se señalan altos niveles de satisfacción en análisis descriptivo avanzado, análisis predictivo, rendimiento y escalabilidad. Se señalan dudas en el sistema de licencias y carencias en las comunidades de usuarios. Se señalan debilidades en la gestión de proyectos.

Referencia: Gartner.com

El Magic Quadrant for Advanced Analytics Platforms 2014 (Minería de datos) Parte 1/2

La primera edición del “Magic Quadrant for Advanced Analytics Platforms”, es decir, el estudio elaborado por la consultora Gartner sobre las principales propuestas de minería de datos (además de otras funcionalidades analíticas), incluye a los fabricantes que cumplan lo siguiente:


La primera edición del “Magic Quadrant for Advanced Analytics Platforms”, es decir, el estudio elaborado por la consultora Gartner sobre las principales propuestas de minería de datos (además de otras funcionalidades analíticas), incluye a los fabricantes que cumplan lo siguiente:

  • Deben ofrecer Advanced Analytics (AA) como un producto independiente que se puede implementar y utilizar por separado de otras aplicaciones de Business Intelligence (BI) o de negocios. Debe se un producto que soporte distintos casos de uso en toda una organización (application-neutral), en lugar de una aplicación empaquetada para un dominio específico o problema de negocio
  • El producto de brindar al menos tres enfoques diferentes para el análisis predictivo, y tres enfoques de análisis descriptivo avanzado, optimización o simulación.
  • Generar al menos 2 millones de US$ en ingresos anuales por licencias de software relacionado Advanced Analytics, o contar con más de 1000 implementaciones activas.
  • Al menos el 15% de sus ingresos se deben provenir fuera de la región de origen del fabricante.
  • En este estudio debe haber logrado un mínimo de 15 encuestas a clientes completas.

Magic Quadrant for Advanced Analytics Platforms 2014 (Gartner)

Son 16 empresas las protagonistas de este estudio, casi la totalidad se trata de empresas con sede en EEUU, algunas de ellas también figuran en el Cuadrante Mágico de Business Intelligence 2014. A continuación señalamos, por orden alfabético, las 6 primeras:

  • Actuate (En Niche Players. Presente en el Cuadrante Mágico de BI 2014 en Niche Players). Empresa con sede en California (EEUU), orientada a la visualización de datos, su propuesta AA es incipiente. La adquisición de la española Quiterian refuerza su apuesta por este sector. Los usuarios señalan problemas sin solución, niveles bajos de satisfacción de calidad del producto, mala comunicación con el proveedor y problemas en las actualizaciones.
  • Alpine Data Labs (En Niche Players). Empresa son sede en California (EEUU), ofrece una plataforma de análisis big data sobre Hadoop y plataformas paralelas. Brinda importantes funciones de colaboración especialmente para el análisis predictivo, para desarrollar los modelos y su reutilización. Clientes reportan niveles altos de satisfacción, pero señalan carencias o debilidades en visualización, exploración y gestión de proyectos.
  • Alteryx (En Visionaries. Presente en el Cuadrante Mágico de BI 2014 en Visionaries). Empresa con sede en California (EEUU), ofrece una plataforma que facilita la combinación de datos propios, con los de terceros y en la nube, para analizarlos. Al igual que se señala en el Cuadrante Mágico de BI, se destaca su novedosa interfaz de usuario que facilita su uso, logrando altos niveles de satisfacción en varios tipos de funciones (accesos a datos y manipulación de datos). Se considera como un producto dirigido al usuario de negocio y no para usuarios expertos o científico de datos porque carece de funciones avanzadas. Usuarios reportan problemas de fiabilidad y en las actualizaciones. Al igual que el proveedor anterior, los usuarios señalaron debilidades en visualización, exploración y gestión de proyectos.
  • Angoss. (En Challengers). Con sede en Canadá, con su producto basado en árboles de decisión, denominado KnowledgeSEEKER, tiene una larga trayectoria en análisis avanzado centrándose en análisis de riesgos, análisis de marketing y analítica CRM, con una fuerte presencia en el sector financiero. En esta encuesta obtiene altos niveles de satisfacción en visualización, exploración y análisis predictivo. Gartner considera que podría mejorar como proveedor independiente y por consiguiente su atractivo como un candidato a ser adquirido. Aun no ofrece funciones avanzadas tales como análisis gráfico o análisis de serie temporales. Los usuarios señalan debilidades en el filtrado de datos, simulación y gestión de proyectos.
  • FICO. (En Niche Players). Empresa con sede en California (EEUU) focalizada en el sector bancario, seguros, retail y salud, con una creciente presencia en otros sectores. Obtiene buenos niveles de satisfacción y fiabilidad de producto. Es seleccionado por la capacidad de construir modelos con precisión y eficacia sobre grandes volúmenes de datos con varias variables. Los usuarios señalan limitaciones en visualización y exploración.
  • IBM. (En Leaders. Presente en el Cuadrante Mágico de BI 2014 en Leaders). Con sede en Chicago (EEUU). Su propuesta se basa en SPSS, empresa que adquirió en 2009, que complementa con Watson e ILOG bajo lamarca corporativa Smart Planet. Seleccionado con frecuencia por la rapidez con la que se construye un modelo, facilidad de uso y calidad del producto (usuarios señalan alta satisfacción en acceso a datos, análisis descriptivo, análisis predictivo, escalabilidad del producto, entre otros aspectos). Los usuarios señalan referencias negativas a la estructura de precios (basada en usuarios y cores, también señalan debilidad en las características de simulación.

Referencia: Gartner.com