La información que tienen a su disposición las empresas, proviene de diversos orígenes y tienen variados formatos, se estima que cerca del 70% de estos datos son “no estructurados”, es decir, no obedecen a estándares informáticos que facilitan su tratamiento. Esta información, que se expresa en el leguaje natural, el que todos empleamos, esta contenida en documentos, mensajes de correo electrónico, páginas Web, feeds de RSS (de blogs y noticias), notas de servicio, encuestas, reclamos, curriculums, registros de llamadas, etc.
No tomar en cuenta esta información, sería como negarse a ver gran parte del panorama que tenemos a nuestra disposición. Para facilitar el análisis de estas fuentes de datos, contamos con la Minería de Texto (Text Mining) que utilizando técnicas de Procesamiento del Lenguaje Natural (NLP), permite transformar toda esta información en formatos estructurados o semi-estructurados que van a facilitar las tareas del análisis e interpretación de la información.
Contando con información estructurada, se podrá hacer uso de las técnicas de Minería de Datos (Data Mining), algo más conocido, para facilitar el descubrimiento de patrones, tendencias, desviaciones y detectar asociaciones entre nuestros objetos de estudio.
Existe software que permite las tareas de minería de texto, quizás por el tiempo que llevan en el mercado de la “Inteligencia empresarial” (Business Intelligence) los más reconocidos son el de SAS y SPSS.
http://www.sas.com/technologies/analytics/datamining/textminer/index.html#section=1
http://www.spss.com/software/modeling/text-analytics/
Ag.