Recuperación de Información y Extracción de Información: un panorama general

Actualmente, existen grandes cantidades de textos en formato electrónico disponibles en la web y, a medida que pasa el tiempo, parece incrementar tanto la cantidad de información como la disponibilidad que los usuarios tienen para acceder a ella. De manera que ahora cualquier persona puede encontrar información fácilmente sobre diferentes temas, áreas, formatos, extensión, lengua, etc., en diferentes sitios web, como las redes sociales, los periódicos on line, páginas de compra y/o venta, bibliotecas virtuales, por mencionar solamente algunos. Esta gran cantidad de información textual contenida en la web representa un gran corpus electrónico al que se puede recurrir para explotarlo con diferentes fines, puesto que en él encontramos desde opiniones de cierto producto o servicio hasta textos académicos altamente especializados.

Sin embargo, la búsqueda, selección y análisis de toda la información que realmente es útil rebasa los límites del tiempo y esfuerzo humano. Ante este panorama, diversas disciplinas buscan desarrollar sistemas informáticos para poder realizar de forma automática dichas tareas. Tal es el caso de los sistemas creados dentro de las áreas denominadas Recuperación de Información y Extracción de Información. El primero tiene como objetivo la búsqueda y selección de documentos que contengan información solicitada por un usuario. El segundo, por su parte, tiene como objetivo la identificación y extracción de información relevante de los documentos recuperados (Cowie y Wilks 2000).

Ambas áreas son subdisciplinas de la Ingeniería Lingüística, área multidisciplinar que vincula la lingüística y la computación y cuyo objetivo es aplicar conocimientos del lenguaje natural para desarrollar herramientas computacionales que permitan el reconocimiento, la comprensión, y la generación del lenguaje humano, tanto en su manifestación oral como textual (Llisterri y Martí 2001).

En algún motor de búsqueda como Google o Yahoo. Estos motores muestran diferentes páginas o clave de la búsqueda. Por otro lado, se identifica y extrae información específica de la noticia periodística del conjunto de documentos, de forma que se muestran de forma organizada, por ejemplo, el nombre del artista, el nombre del lugar de concierto, el número de asistentes, la ciudad y la fecha del concierto (Téllez 2005). Por lo tanto, en este proceso de organización y sistematización de grandes cantidades de textos, primero se obtienen los potenciales documentos con la información solicitada de una determinada búsqueda y, después, se extrae la información específica de los documentos obtenidos.

En el proceso de recuperación y extracción de información, hay algunas estructuras textuales que ayudan a identificar y extraer datos específicos de un conjunto de textos, como:

i) Palabras-clave: palabras que presentan una alta frecuencia por su importancia en el texto. Por ejemplo, el nombre del artista o del concierto.

ii) Patrones lingüísticos: cadena de datos con un código específico, como fechas, códigos postales, números telefónicos, correos electrónicos, etc.

iii) Entidades con nombre: los nombres propios que estén en el texto permiten identificar más fácilmente entidades humanas. Por ejemplo, el nombre del artista. De esta manera, se contará con datos precisos de un determinado acontecimiento. No obstante, las aplicaciones de la recuperación y extracción de información pueden tener alcances muy amplios, dependiendo del tipo y cantidad de información, puesto que se puede emplear tanto en un hospital con los historiales clínicos como en un banco con la información de sus usuarios.

En este contexto, algunas instituciones mexicanas que han incursionado en la investigación y desarrollo de sistemas de Recuperación y Extracción de Información y, en general, en la Ingeniería Lingüística son el Grupo de Ingeniería lingüística (GIL) del Instituto de Ingeniería, el Instituto de Investigación en Matemáticas Aplicadas y Sistemas (IIMAS), ambos de la Universidad Nacional Autónoma de México (UNAM); el Centro de Investigación en Computación (CIC) del Instituto Politécnico Nacional (IPN); el Laboratorio de Tecnologías del Lenguaje del Instituto Nacional de Astrofísica Óptica y Electrónica (INAOE) y la Facultad de Ciencias de la Computación de la Benemérita Universidad Autónoma de Puebla (BUAP). Todos estos centros de investigación llevan a cabo diferentes trabajos multidisciplinares en aras de aprovechar de forma más eficaz y sencilla y, sobre todo, en el menor tiempo posible toda la información que obtenemos con un solo clic en la web en la era de la información digital.

Bibliografía:
Cowie, J. y Wilks, Y. (2000). “Information Extraction”, Handbook of Natural Language Processing: Techniques and Applications for the Processing of Language as Text. Nueva York: Marcel Dekker Inc.
Llisterri, J. y Martí, M. A. (2001). La ingeniería lingüística en la sociedad de la información, en http://www.uoc.edu/humfil/articles/esp/llisterri-marti/llisterri marti.html. Recuperado el 05 de enero de 2014.
Téllez, A. (2005). Extracción de Información con Algoritmos de Clasificación. Tesis de maestría inédita. Puebla: Instituto Nacional de Astrofísica, Óptica y Electrónica.

Escritor: Irasema Cruz Domínguez

Cookie	Duración	Descripción
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.