Inteligencia artificial: ¿Cuáles son algunos proyectos de IA / PNL que analizan la literatura científica?

Ha habido una serie de proyectos de IA / PNL centrados en la literatura científica. Mi propia área de especialización es medicina / atención médica, así que de ahí provienen mis ejemplos.

Mi favorito personal es el proyecto Arrowsmith, liderado por Don Swanson y luego implementado por Neil Smallheiser (Sistema Arrowsmith). La idea detrás de esto era descubrir relaciones clínicas previamente desconocidas en una especie de propiedad de propiedad transitiva (si A está relacionado con B y B está relacionado con C, A puede estar relacionado con C). Básicamente hicieron una búsqueda del tema A, luego el tema C y buscaron todas las palabras (luchando por conceptos semánticos) compartidas en busca de nuevas relaciones. Como todos los métodos inductivos geniales, se hace necesario probar hipótesis y pudieron descubrir algunas conexiones nuevas y geniales. Lo más notable fue la capacidad del aceite de pescado para tratar la enfermedad de Raynauld.

Otros han avanzado esta idea a medida que se han conectado nuevas / mejores canalizaciones de PNL de código abierto. Ver LitLinker de Pratt y Yetisgen-Yildiz (página en washington.edu).

Menos emocionante pero aún así calificado como ejemplo, he trabajado analizando resúmenes de PubMed para identificar qué artículos representaban ensayos controlados aleatorios versus estudios observacionales y también para extraer la enfermedad que es el interés principal del estudio. Eso fue pagado y en apoyo de los esfuerzos de las compañías farmacéuticas para comprender el panorama de la investigación de las áreas de enfermedades en las que podrían ingresar (o quién está detrás de ellos).

Ha habido todo tipo de horneados centrados en la literatura científica (Competiciones y desafíos). Mis favoritos fueron las competencias TREC (Text Retrieval Conference (TREC) Home Page) y MUC (MUC). Parecen obsoletos ahora, pero la mayoría del descubrimiento interesante relacionado con los métodos tuvo lugar durante esos concursos.

La mayor parte de la actividad relacionada con la PNL y la literatura científica está en el área de la informática biomédica. Los datos genómicos y proteómicos son enormes y, por alguna terrible razón, hemos informado de todos nuestros resultados científicos como texto libre no estructurado, lo que hace que sea muy difícil reutilizar / probar / descubrir nuevas relaciones. Buena seguridad laboral para los ingenieros de PNL, mala para la sociedad.