Minería de Texto, una técnica para analizar la Web

Uso de la «Minería de texto» para analizar los contenidos de la Web y otras fuentes con contenidos «no estructurados».


La información que tienen a su disposición las empresas, proviene de diversos orígenes y tienen variados formatos, se estima que cerca del 70% de estos datos son “no estructurados”, es decir, no obedecen a estándares informáticos que facilitan su tratamiento.  Esta información, que se expresa en el leguaje natural, el que todos empleamos, esta contenida en documentos, mensajes de correo electrónico, páginas Web, feeds de RSS (de blogs y noticias), notas de servicio, encuestas, reclamos, curriculums, registros de llamadas, etc.

No tomar en cuenta esta información, sería como negarse a ver gran parte del panorama que tenemos a nuestra disposición.  Para facilitar el análisis de estas fuentes de datos, contamos con la Minería de Texto (Text Mining) que utilizando técnicas de Procesamiento del Lenguaje Natural (NLP), permite transformar toda esta información en formatos estructurados o semi-estructurados que van a facilitar las tareas del análisis e interpretación de la información.

Contando con información estructurada, se podrá hacer uso de las técnicas de Minería de Datos (Data Mining), algo más conocido, para facilitar el descubrimiento de patrones, tendencias, desviaciones y detectar asociaciones entre nuestros objetos de estudio.

Software Mineria Texto

Existe software que permite las tareas de minería de texto, quizás por el tiempo que llevan en el mercado de la “Inteligencia empresarial” (Business Intelligence) los más reconocidos son el de SAS y SPSS.

 http://www.sas.com/technologies/analytics/datamining/textminer/index.html#section=1

http://www.spss.com/software/modeling/text-analytics/

 Ag.

Anuncio publicitario

Un ejercicio básico de Segmentacio 2.0


La mayoría somos conscientes que la capacidad de innovación, reacción, proacción y cualquier otra característica similar, nos podría ayudar a potenciar nuestras ventajas competitivas y que la calidad de estas cualidades, de algún modo, estarán determinadas en función de nuestra capacidad de saber observar y escuchar nuestro entorno. Pero resulta que nuestro entorno, ahora, tiene dos escenarios, mutuamente complementarios, el real, el de toda la vida, quizás el más conocido y el más fácil de describir y por otro lado, el online, representado por las redes sociales de Internet que crecen exponencialmente en número de seguidores y contenidos.

Resulta tarea obligatoria conocer aquellas “nuevas” comunidades, cuyos integrantes son los mismo miembros de las comunidades tradicionales, pero con la gran diferencia que ahora se expresan en un escenario que les a dado voz y muchos escuchan.

Considero que un buen comienzo, para conocer a las eComunidades, es indagar por su estructura y características demográficas y según ello, identificar cuales son de nuestro interés.  Podemos encontrar en la Web, muchos “sitios” que nos pueden brindar esta información. Del mismo modo, es muy importante conocer los hábitos de la comunidad, tales como la frecuencia de su comunicación o su estilo en el lenguaje.

Utilizando conceptos básicos de minería de datos o simplemente, métodos de clasificación, podríamos intentar hacer un ejercicio de “Segmentación 2.0” de los miembros integrantes de la red social elegida, deberíamos identificar las siguientes categorías o roles de usuarios:

  • Influenciadores o Alpha – Users, Son los expertos conocedores de nuestro producto/servicio, principales causantes de la propagación de contenidos. Si es posible, deberíamos diseñar un ranking según el “Valor por influencia” que estaría determinado por el número de seguidores que posee y la cantidad de actualizaciones que ha realizado.
  • Seguidores, Asiduos lectores de los Influenciadores
  • Omega – Users, Aquellos, que tienen un nivel de actividad muy bajo y donde la propagación de la comunicación se trunca.
  • Bridge – Users, Aquellos usuarios que están presentes en más de una comunidad

(Dependiendo la red social elegida, encontraremos más o menos facilidades para hacer un ejercicio de este tipo. Quizás Twitter, por su características, brinda más posibilidades)

Teniendo un mapa de relaciones con esta información básica, podríamos utilizarla, conjuntamente con nuestro buen criterio, para definir acciones específicas dirigidas a influenciadores y seguidores para causar una reacción en la comunidad.  Será nuestra obligación analizar la reacción, a modo de feedback, y tenerla presente para iniciativas futuras.

Ag.