lunes, 31 de mayo de 2010

Definición de Mineria de Textos

¿Qué es Minería de Textos?
___________________________________________________

En primer lugar debemos delimitar el alcance del término “minería textual” o “minería de textos”, que utilizaremos como sinónimos en este documento. Acotar el significado de este término —y de la minería textual como disciplina—, no resulta fácil, ya que en ella confluyen distintas técnicas y principios teóricos desarrollados en otras disciplinas, mucho antes de que se comenzase a hablar de minería textual y de datos comotales. La minería textual recoge distintas técnicas formuladas en el ámbito de la recuperación textual —o text retrieval— y la lingüística computacional.

Por otra parte, desde una perspectiva comercial, algunos fabricantes de aplicaciones para minería textual la presentan como una aplicación complementaria a la minería de datos que analiza y pretende identificar patrones en los datos almacenados en repositorios de información
estructurada (bases de datos relacionales y almacenes de datos o data warehouses).
Si recurrimos a la literatura publicada sobre el tema, encontramos distintas definiciones. Dan Sullivan (2001, p. 324), autor de una de las pocas monografías dedicadas en exclusividad al tema, recoge dos de ellas:

La primera define minería textual como cualquier operación realizada para extraer y analizar textos procedentes de distintas fuentes externas con el objetivo de obtener inteligencia.

La segunda define minería textual como el descubrimiento de información y conocimiento que anteriormente no se conocía, a partir de corpus textuales. Esta segunda definición coincide en líneas generales con la que quizá sea la más popular y que formuló Marti A. Hearst en su artículo Untangling text data mining. En ese texto, que se considera una lectura obligada como introducción a la minería textual, Hearst señala que ésta tiene como objetivo descubrir información y conocimiento que previamente se desconocía, y que no aparecía en ninguno de los documentos analizados. De acuerdo con esta definición, la minería textual sería un proceso con el que se pretende descubrir nueva información o conocimiento, y en el que la información que se descubre debe ser desconocida de antemano, incluso por los autores de los documentos que se hayan tomado como punto de partida del proceso.

En un trabajo sobre la permeabilidad de las disciplinas científicas, Don Swanson señaló las limitaciones derivadas del desconocimiento que los expertos en un área determinada tienen de la literatura publicada en otras áreas de conocimiento, y que pueden ser relevantes para sus temas de estudio.

Estas limitaciones se ilustran con un ejemplo sobre la migraña. Swanson extrajo una serie de enunciados de distintos artículos publicados por expertos en distintas áreas, con lo cual la probabilidad de que un mismo científico accediese a todos ellos resultaba remota.

Los enunciados utilizados por Swanson son los siguientes:
—El estrés está relacionado con las migrañas.
—El estrés puede producir pérdidas de magnesio.
—Los bloqueos de calcio previenen a las migrañas

No hay comentarios:

Publicar un comentario