He estado trabajando en este problema durante bastante tiempo. Como escritor y autor, estoy bastante versado en cuestiones de derechos de autor. Y como fabricante de bots de Twitter durante algunos años, también estoy familiarizado con las vicisitudes de los dioses de Twitter. En términos de plagio, recuerdo lo que dijo mi padre una vez, con la lengua en la mejilla, “todo el mundo roba, se llama investigación”.
Tal vez con razón, Twitter tiene una visión poco clara de estafar los tweets de otras personas al pie de la letra, y cerrará este tipo de automatización, tarde o temprano. Personalmente, no considero que el texto de menos de una oración sea una infracción de derechos de autor. Y, los tweets rara vez son oraciones completas. La mayoría de las veces, los tweets son incoherentes, en términos de inglés adecuado. En cuyo caso, la normalización del texto está a la orden del día.
He invertido un gran esfuerzo tratando de normalizar los tweets en oraciones adecuadas y completas (para alimentarlos en chatbots o sistemas de diálogo). El único éxito que he tenido con esto ha sido el uso de elaboradas matrices de expresiones regulares; por ejemplo, perdí algunas canalizaciones de nube 2000x cuando Yahoo! Las tuberías cerraron recientemente. La normalización de expresiones regulares calificaría como una forma de IA tradicional basada en reglas. Sin embargo, lo que descubrí fue que este tipo de normalización está muy cerca de la generación del lenguaje natural.
En resumen, especialmente usando datos de Twitter basados en n-gramas, no creo que haya ningún problema ético al reorientar esto esencialmente basura en algo más coherente, basado en temas o no. Además, según mi experiencia, no hay problemas prácticos asociados con la alimentación de amalgamaciones diferenciadas en Twitter.
- Cómo mejorar mis habilidades de escritura
- ¿Cuáles son los factores clave en la escritura y cómo practicar?
- En Indonesia, ¿cuál es mayor en cantidad, libro escrito con hanacaraka o letra árabe?
- Cómo escribir una biografía profesional para twitter, linkdin, Facebook y google +
- ¿Cuándo es correcto usar til o till en una oración?