lunes, 31 de mayo de 2010

Definición de Mineria de Textos

¿Qué es Minería de Textos?
___________________________________________________

En primer lugar debemos delimitar el alcance del término “minería textual” o “minería de textos”, que utilizaremos como sinónimos en este documento. Acotar el significado de este término —y de la minería textual como disciplina—, no resulta fácil, ya que en ella confluyen distintas técnicas y principios teóricos desarrollados en otras disciplinas, mucho antes de que se comenzase a hablar de minería textual y de datos comotales. La minería textual recoge distintas técnicas formuladas en el ámbito de la recuperación textual —o text retrieval— y la lingüística computacional.

Por otra parte, desde una perspectiva comercial, algunos fabricantes de aplicaciones para minería textual la presentan como una aplicación complementaria a la minería de datos que analiza y pretende identificar patrones en los datos almacenados en repositorios de información
estructurada (bases de datos relacionales y almacenes de datos o data warehouses).
Si recurrimos a la literatura publicada sobre el tema, encontramos distintas definiciones. Dan Sullivan (2001, p. 324), autor de una de las pocas monografías dedicadas en exclusividad al tema, recoge dos de ellas:

La primera define minería textual como cualquier operación realizada para extraer y analizar textos procedentes de distintas fuentes externas con el objetivo de obtener inteligencia.

La segunda define minería textual como el descubrimiento de información y conocimiento que anteriormente no se conocía, a partir de corpus textuales. Esta segunda definición coincide en líneas generales con la que quizá sea la más popular y que formuló Marti A. Hearst en su artículo Untangling text data mining. En ese texto, que se considera una lectura obligada como introducción a la minería textual, Hearst señala que ésta tiene como objetivo descubrir información y conocimiento que previamente se desconocía, y que no aparecía en ninguno de los documentos analizados. De acuerdo con esta definición, la minería textual sería un proceso con el que se pretende descubrir nueva información o conocimiento, y en el que la información que se descubre debe ser desconocida de antemano, incluso por los autores de los documentos que se hayan tomado como punto de partida del proceso.

En un trabajo sobre la permeabilidad de las disciplinas científicas, Don Swanson señaló las limitaciones derivadas del desconocimiento que los expertos en un área determinada tienen de la literatura publicada en otras áreas de conocimiento, y que pueden ser relevantes para sus temas de estudio.

Estas limitaciones se ilustran con un ejemplo sobre la migraña. Swanson extrajo una serie de enunciados de distintos artículos publicados por expertos en distintas áreas, con lo cual la probabilidad de que un mismo científico accediese a todos ellos resultaba remota.

Los enunciados utilizados por Swanson son los siguientes:
—El estrés está relacionado con las migrañas.
—El estrés puede producir pérdidas de magnesio.
—Los bloqueos de calcio previenen a las migrañas

jueves, 27 de mayo de 2010

Introducción a la Mineria de Textos


La minería textual es una de las tecnologías que, desde su formulación inicial a principios de la década de los noventa, ha tenido un mayor impacto en las actividades relacionadas con la inteligencia militar. Si bien este impacto nunca ha alcanzado el nivel de generalización de la minería de datos, los desafortunados acontecimientos del 11 de septiembre de 2001 hicieron que distintos medios prestasen atención a las tecnologías empleadas por las organizaciones policiales encargadas de luchar contra el terrorismo. Así, a partir de esa fecha podemos encontrar un mayor número de referencias al uso de la minería textual y de datos con este propósito.
La minería textual es una aplicación de la lingüística computacional y del procesamiento de textos que pretende facilitar la identificación y extracción de nuevo conocimiento a partir de colecciones de documentos o corpus textuales.
Relacionada con la minería de datos (desde una perspectiva comercial podríamos decir que la minería textual es “la hermana pequeña” de la minería de datos), la diferencia entre estas dos aplicaciones está en que con esta última se pretende extraer conocimiento a partir de los patrones observables en grandes colecciones de datos estructurados que se almacenan en bases
de datos relacionales. En el caso de la minería textual, se tomará como punto de partida para la extracción de nuevo conocimiento repositorios documentales o texto. Es decir, información no estructurada.
La minería de textos es un área multidisciplinaria basada en la recuperación de información, minería de datos, aprendizaje automático, estadísticas y la lingüística computacional. Como la mayor parte de la información (más de un 80%) se encuentra actualmente almacenada como texto, se cree que la minería de textos tiene un gran valor comercial.

Es importante mencionar que se presta cada vez un mayor interés a la minería de textos multilingual: la habilidad de ganar información en otros idiomas.