Quiero crear un motor de búsqueda para buscar texto dentro de archivos de Word y PDF. ¿Cómo puedo proceder?

Hay tres etapas involucradas en este proceso.

El formato de entrada es un documento de Word y un archivo PDF (documentos binarios), el primer proceso es convertir el formato binario a texto sin formato. Hay muchas bibliotecas disponibles para realizar esta tarea, a saber, Apache Tika (solución integral)

Elija un lenguaje de programación que realmente pueda indexar el documento; si planea elegir JavaScript, vaya a nodejs o use Elasticsearch-PHP [5.0] | Biblioteca elástica para indexar el archivo

La tercera etapa es muy importante, donde la interacción real con Elasticsearch es la parte delantera, puede tener referencia de las directivas de AngularJS para Elasticsearch

En la parte frontal, puede tener la opción de realizar operaciones CRUD. También puede incluir AI en su proceso dependiendo de su caso de uso o locura que pueda pensar con esos datos. La parte difícil es la integración. Todo lo mejor

Respuesta de una línea: explore @Apache Solr o @Elasticsearch para resolver su problema de búsqueda. Tanto el software proporciona integración con @Apache Tika para la extracción de contenido de archivos de texto enriquecido.

pago Apache Tika – Apache Tika

documento de Word que debe almacenar en db (por ejemplo, mongodb) porque elasticsearch es muy compatible con documentos no estructurados como bson … después de eso, puede realizar su consulta a su manera