Quiero crear un motor de búsqueda para buscar texto dentro de archivos de Word y PDF. ¿Cómo puedo proceder?

Hay tres etapas involucradas en este proceso.

El formato de entrada es un documento de Word y un archivo PDF (documentos binarios), el primer proceso es convertir el formato binario a texto sin formato. Hay muchas bibliotecas disponibles para realizar esta tarea, a saber, Apache Tika (solución integral)

Elija un lenguaje de programación que realmente pueda indexar el documento; si planea elegir JavaScript, vaya a nodejs o use Elasticsearch-PHP [5.0] | Biblioteca elástica para indexar el archivo

La tercera etapa es muy importante, donde la interacción real con Elasticsearch es la parte delantera, puede tener referencia de las directivas de AngularJS para Elasticsearch

En la parte frontal, puede tener la opción de realizar operaciones CRUD. También puede incluir AI en su proceso dependiendo de su caso de uso o locura que pueda pensar con esos datos. La parte difícil es la integración. Todo lo mejor

Related Content

Cómo convertir un archivo .ASHX a .PDF

Cómo modificar un archivo PDF

¿Hay alguna forma de extraer la introducción de PDF?

¿Hay alguna forma gratuita de extraer solo el texto de un PDF?

Cómo leer 800 archivos PDF en minero rápido y agruparlos

¿Debo leer libros electrónicos en mi teléfono?

¿Quiénes son los guerreros más importantes en la historia de la India que han sido olvidados por nuestros libros de texto?

Respuesta de una línea: explore @Apache Solr o @Elasticsearch para resolver su problema de búsqueda. Tanto el software proporciona integración con @Apache Tika para la extracción de contenido de archivos de texto enriquecido.

Udit Narayan

pago Apache Tika – Apache Tika

Suraj ES

documento de Word que debe almacenar en db (por ejemplo, mongodb) porque elasticsearch es muy compatible con documentos no estructurados como bson … después de eso, puede realizar su consulta a su manera

Udit Narayan

More Interesting

¿Por qué la aplicación Vista previa hace que aparezcan varias copias de anotaciones de texto en una pila cuando abro un PDF guardado?

¿Cuál es la mejor manera de vincular un PDF a otro PDF?

¿Hay algún método para saber si he escrito el texto o copiado de PDF a MS Word?

¿Qué son los archivos PDF accesibles?

Cómo proteger un PDF para evitar compartir archivos

¿Por qué se recomienda usar PDF?

Cómo sacar una página de un archivo PDF

¿Cómo se puede abrir el archivo PDF?

Cómo combinar dos páginas en una sola página dentro de un archivo PDF

Cómo comprimir un archivo PDF