¿Qué desafíos estaría involucrado en un proyecto masivo de código abierto sobre la digitalización de textos sánscritos antiguos y ponerlos a disposición a través de Wikipedia?

Samskrita Bharati realizó un proyecto de este tipo con más de 10 personas durante casi 2 años y una buena cantidad de textos ya están en formatos digitales.

Los desafios

  1. No existe un mecanismo de corrección ortográfica adecuado en sánscrito. Simple porque सकल y शकल: ambas palabras están en el diccionario. De la misma manera भव-भाव, पवन-पावन, विषय-विशय en muchas de estas combinaciones en el caso de que uno escriba otra palabra, el corrector ortográfico no puede descubrirlo porque todas y muchas más palabras están en el diccionario y son palabras válidas. El corrector ortográfico debe ser sensible al contexto (esto está muy lejos, en el área de una poderosa Inteligencia Artificial)
  2. No hay suficientes personas que escriben en sánscrito: los mecanógrafos hindi rápidos no son adecuados para escribir en sánscrito.
  3. Las herramientas de mecanografía no son tan fáciles como las disponibles en inglés: mensajes predictivos, etc.
  4. La lectura de prueba es una tarea importante tan grande o más grande que escribir
  5. OCR sánscrito (reconocimiento óptico de caracteres): solo hay una herramienta disponible para sánscrito con una capacidad algo aceptable, no muy madura. En cuanto al inglés, hay cientos de herramientas y muy bien maduradas en los últimos 30 años.
  6. Algunos de los contenidos sánscritos no compatibles con Unicode pero digitalizados no se pueden transferir a formatos compatibles con Unicode.
  7. Sánscrito: en Unicode utiliza un formato de caracteres de 32 bytes de longitud; esto crea muchos problemas con respecto al almacenamiento; esta es la razón por la cual los mensajes de texto (SMS) y Twitter escritos en el guión de Devanagari son cortos, porque 140 o 160 caracteres son para ASCII y no para Unicode.

Existen muchas otras dificultades operativas con respecto a la digitalización de textos en sánscrito, pero a pesar de todos estos retrasos, hay una buena cantidad de textos en sánscrito digitalizados disponibles en la actualidad.

Lo más importante si hay FONDOS suficientes, entonces esto seguramente sucederá.

La Organización SamskRta Bharati ha emprendido un proyecto de este tipo en el centro de Aksharam en Girinagar, Bangalore.

La idea central de este equipo es convertir todas las versiones escaneadas existentes de documentos sánscritos al formato Unicode, de modo que esté disponible en la página web de wikisource.

Linkानि – Wikisource Este enlace brinda todos los detalles de los documentos que se digitalizan. También se realizó un taller de dos días para discutir qué tan bien el proceso podría llevarse adelante y para dar una introducción a todos los entusiastas de SamskRt como yo sobre cómo podría contribuir al movimiento. También se requieren muchos más voluntarios para impulsar este proceso.

En resumen, los documentos escaneados de código abierto disponibles en los archivos de Google o los existentes como archivos PDF en sistemas informáticos se cargan en wikimedia commons. Esto ahora está vinculado con el mismo nombre a un nuevo índice creado en wikisource. Después de lo cual cada página del documento se convierte a formato Unicode y se pone a disposición junto con la copia escaneada del documento. A medida que la conversión Unicode se realiza a través del software OCR, habrá algunos errores que deben corregirse y corregirse. La página también debe tener un diseño presentable adecuado y guardarse.

Este es un procedimiento tedioso y requiere mucha mano de obra. Cualquier sugerencia sobre una mejor solución a los desafíos que enfrenta este equipo siempre es bienvenida. Y este trabajo también es una contribución increíble para preservar los textos antiguos, que se atribuye a ser la mejor manera de que los jóvenes de hoy aprendan sobre las raíces de la cultura india. Los voluntarios son bienvenidos.

Esta respuesta se actualizará con los acontecimientos.

Recientemente tuve el privilegio de visitar Madras Sanskrit College en Mylapore. Tienen una colección de algunos de los libros de texto y guiones más raros escritos en Devanagari, incluidos los manuscritos escritos en hojas de palma.

Tenían una forma muy novedosa de digitalización. De hecho, Google se les acercó para digitalizar toda la colección de libros, pero quería que se los llevara a los EE. UU., Por lo tanto, encontraron otra solución.

La digitalización ya está en marcha por un investigador de IIT Bombay. Él ha encontrado y patentado un mecanismo para mejorar la claridad digital del texto e imprimir en una determinada tela de papel que también está patentado por él, incluido el escaneo de las copias del texto mejorado. Estuve muy satisfecho particularmente con la claridad entre el material original y el mejorado.

El desafío sería identificar o llegar a tales técnicas novedosas de algoritmos de procesamiento de imágenes, lo cual es una tarea en sí misma. La segunda tarea sería crear una biblioteca digital abierta al público y soluciones de alojamiento similares a Wikipedia únicamente para estos fines específicos.

No obstante, recomendaría una visita a la biblioteca con aire acondicionado y acceso restringido abierto solo para contribuyentes, pero uno puede acceder a los contenidos digitalizados que están abiertos al público dentro de la biblioteca.

No hay ningún desafío en absoluto, llame a los maestros indios para la digitalización y emplee a quienes estén bien versados ​​en sánscrito oralmente, como los bhramins lo saben mejor que nadie, pueden hacerlo.