¿Cuál es la probabilidad de que alguien escriba un párrafo donde 20 palabras consecutivas coinciden con las de otra persona?

La probabilidad de que 20 palabras consecutivas coincidan exactamente entre dos autores es abismalmente baja, aunque la probabilidad aumenta un poco una vez que se tiene en cuenta la idea de que el número de palabras utilizadas para describir una idea similar es limitado.

Echemos un vistazo usando algunos ejemplos.

Una estimación calcula que el número de palabras en inglés es de aproximadamente 1,000,000. Es un buen número redondo, así que usémoslo. Si interpreta esto como un problema de probabilidad directa, cada palabra se elige al azar del grupo de 1,000,000 y se coloca en un orden específico. Cada palabra seleccionada tiene una probabilidad de 1 / 1,000,000 de ser elegida, y trabajaremos fuera del supuesto de que no hay palabras repetidas en la cadena de 20. También reduciremos el grupo a la mitad, solo para hacer las cosas un poco más razonables , dándonos una oportunidad de 1 / 500,000 para la primera palabra, 1 / 499,999, para la segunda, 1/499998 para la tercera, etc.

Según esta estimación, hay una probabilidad 2.622258 e-103 de que se elegirán las veinte palabras. Ese es un número pequeño. Pero tampoco es realista.

Digamos entonces que el grupo dado para la elección de palabras es 1 / 10,000 y no se reducirá. Eso nos da una ecuación mucho más simple: (1 ÷ 10000) ^ 20. La respuesta entonces es 1 e-80, que es significativamente más grande, pero aún bastante pequeña.

¿Qué pasa con 1/1000? 1 e-60.

1/100? 1 e-40.

1/10? 1 e-20.

Incluso si la probabilidad de que se seleccione una palabra es 1/2, la probabilidad de que 20 palabras se seleccionen exactamente en secuencia es 9.53674316 e-7. Eso nos deja con 0.00000954% de probabilidad.

En un idioma con 1,000,000 de palabras, la posibilidad nunca es tan alta.

Las probabilidades son muy pequeñas: efectivamente cero.

El lingüista forense Malcolm Coulthard tuvo que demostrar esto una vez en la corte, para demostrar que algo andaba mal si una oración particular de nueve palabras aparecía en dos transcripciones diferentes del lenguaje hablado. Hizo una búsqueda en Google en las dos primeras palabras de la oración (“pregunté”) y obtuvo más de dos millones de visitas. Agregar la tercera palabra a la búsqueda redujo el número de resultados a más de 200,000. Cada palabra adicional continuó reduciendo el número de visitas en un orden de magnitud.

Hasta que llegó a la séptima palabra, un verbo. Eso redujo el número de respuestas en tres órdenes de magnitud, hasta solo siete resultados. En la palabra nueve, Google no encontró coincidencias para la oración.

Si está buscando una declaración numérica de probabilidades, no creo que sea posible calcularla, dada la amplitud de temas que la escritura puede cubrir. Pero creo firmemente que las respuestas que afirman que es totalmente imposible no son correctas. Creo que la respuesta de Jeff Nash es más correcta.

Hay un viejo adagio que dice que si pones mil monos en máquinas de escribir, eventualmente uno de ellos escribirá al azar Guerra y paz . Eso es completamente poppycock, tal cosa nunca podría suceder, pero de todos modos no se entiende en sentido literal; es una forma de decir, bueno, las coincidencias suceden. Esa es la definición misma de coincidencia . Pero también creo que con siete mil millones de personas en esta tierra, es posible que dos de ellos, completamente inconscientes del trabajo del otro, escriban una cadena idéntica de 20 palabras sin que haya sido un plagio de ninguno de los dos. Creo que esto es particularmente cierto si estamos hablando de una descripción escrita de algo. Incluso ingresé detalles de búsqueda largos, de más de 10 palabras, y aparecieron varias preguntas absolutamente idénticas en el autocompletado de la ventana de búsqueda antes de hacer clic en la lupa. Eso significa que al menos un ‘alguien más’ hizo exactamente la misma pregunta. No es imposible Una pieza de ficción creativa, o una cadena de 2 00 palabras, no tanto.

Cuando enseñé en los EE. UU., Teníamos una herramienta que utilizamos para comparar los documentos de los estudiantes con los artículos de revistas, Internet, la prensa popular y los documentos presentados anteriormente. Si encuentra una cadena de cuatro o más palabras consecutivas en común, el texto se marcará y se identificará su fuente. Sin embargo, esta salida debe usarse con cierto sentido común.

Hoy estoy trabajando con un investigador en un artículo. El autor escribió: “Los resultados del estudio mostraron que ……. La lista de éxitos parece una guía telefónica de Nueva York.

Escribir es como una huella del alma.

Nunca encontrarás dos almas por igual.

Podríamos estar de acuerdo y morir por la misma creencia.

Pero nunca lo diríamos de la misma manera.

Nuestros amigos matemáticos seguramente podrán darte las matemáticas exactas. Pero estoy dispuesto a apostar que ganar la lotería dos veces es mucho más probable.

De hecho, así es como los escritores y los maestros detectamos el plagio. Ponga algunas palabras en Google entre comillas: “” y si lo encuentra en otro lugar, se lo roban.

si encontraste algo así, sin citas, entonces es plagiado sin lugar a dudas.

A menos que ambos citen a alguien o planteen la misma pregunta, es casi imposible. Así, por cierto, así es como los maestros usan el software para detectar las trampas.

No soy estadístico, pero diría que era muy delgado. Asegúrese de citar su fuente, de cualquier manera.

Si usted y otra persona escribieran sobre el mismo tema, parece probable que puedan usar las mismas palabras, y posiblemente parte de la misma estructura de oración. (29 palabras)

Pero es muy poco probable en mi experiencia de calificar trabajos que dos estudiantes usen exactamente las mismas palabras a menos que uno o ambos hayan copiado de otro lugar.