¿Cómo extraen los investigadores grandes bloques de texto de los libros?

Nos hemos encontrado con muchos investigadores que luchan con este tipo de problema. Muchos tienen montones de libros, algunos de ellos que datan de siglos atrás (por ejemplo, literatura de Francia de principios de siglo). Muchos de ellos

En términos de soluciones, OCR ha recorrido un largo camino y ahora puede traducir con bastante precisión “imágenes” de texto en texto editable. Hay dos soluciones principales de tipo de consumidor que podría usar:

Escáner de mano: un dispositivo de tipo varita que coloca el cursor sobre una página para incorporarlo todo (estos pueden ser de diferente calidad en términos de su OCR).

Pen Scanner: un escáner en forma de “bolígrafo” que pasa sobre las oraciones clave (como lo haría con un marcador) y las extrae en cualquier tipo de software de procesamiento de texto en su PC. Scanmarker es uno de esos dispositivos (y probablemente el más rentable del mercado).

Divulgación completa: estoy afiliado a Scanmarker: su escáner de lápiz portátil

No estoy totalmente seguro de si tiene curiosidad acerca de cómo los investigadores realmente hacen esto, o si hay herramientas para ayudarlos a hacerlo mejor o de una manera más conocedora de la tecnología.

Primero, Dena tiene razón. Los investigadores hoy en día hacen un uso extensivo de las fotocopiadoras, escanean a PDF [y luego pueden indexar usando algo como Zotero] o simplemente mantienen el libro en el estante con una idea general de lo que hay dentro que han resaltado.

Otras formas un poco más efectivas que incluyen copiar / OCR en algo que organiza la investigación para usted. He visto personas que escriben ficción usando Scrivener u otras herramientas de escritura para esto. He visto personas que tienen sus TA u otros asistentes que hacen esto. CastingWords se ha convertido en una forma popular de hacer transcripciones, pero no sé si hacen este tipo de cosas.

http://castingwords.com/

He visto a personas simplemente copiarlo ellos mismos. Realmente, si escribes 90 palabras por minuto, a veces simplemente escribir las cosas es la forma más sencilla de hacerlo.

Y sí, DRM es limitante para las personas que desean copiar cosas de los libros electrónicos, pero nuevamente, esta limitación es superable dependiendo de lo que realmente esté tratando de hacer. Muchos formatos de epub tienen DRM que es trivial de derrotar y los investigadores que solo están haciendo una copia para sí mismos que es indexable por palabras clave no tienen problemas con la policía de derechos de autor.

Entonces, la respuesta general a cómo los investigadores hacen esto es: consumen mucho papel y guardan una gran cantidad de cosas indexadas en sus cerebros. Yo también sentiría curiosidad por ver si hay nuevos modelos que sean más útiles en su aplicación que onerosos en su facilidad de uso.

Probablemente encontrará que una gran cantidad de académicos utilizan exactamente los métodos que aprendieron cuando comenzaron a investigar (transcripción manual o fotocopia), con la diferencia de que el escaneo y el OCR ahora es una opción razonable para grandes cantidades de material.

Dicho esto, la investigación de libros electrónicos tiene el potencial de cambiar los métodos, porque la fotocopia ya no es una opción. Es posible copiar o pegar directamente los libros electrónicos, aunque el método variará según el formato y el dispositivo. El Kindle, por ejemplo, le permite tuitear o compartir texto resaltado. Lamentablemente, esto es solo caso por caso, y no le da la opción de ahorrar en privado en lugar de compartir. No conozco un lector de libros electrónicos configurado para ayudar a los investigadores de esta manera.

Sin embargo, dudo con qué frecuencia se realizan investigaciones detalladas sobre libros electrónicos o copias electrónicas (por ejemplo, Gutenberg, Google books). Mirando la pregunta, el escenario más común seguirá siendo la impresión> texto electrónico. Para capturar el texto resaltado específicamente, me temo que los métodos más básicos seguirán prevaleciendo. La solución técnica más adecuada parece ser el C-PEN sugerido por Mahmoud.