¿Cuál es la probabilidad de que dos personas que no se conocen escriban el mismo texto? (Supongamos un texto de 500 palabras)

¿Asumiendo que no hay una guía sobre lo que están escribiendo? Absolutamente, positivamente cero. Bueno, no literalmente cero, pero más alucinantemente cerca de lo que podrías imaginar razonablemente.

Aprovecharé esta oportunidad para vincularme a uno de mis ensayos favoritos de todos los tiempos: Twitter (En serio, léelo ahora. Es excelente, y hará que el resto de esta respuesta sea mucho más sensata).

En él, Monroe analiza la cantidad de tweets posibles y significativos (publicaciones de Twitter). Un tweet está limitado a 140 caracteres. Este artículo sugiere que la longitud promedio de las palabras es de 5.1 letras. Incluyendo espacios, lo llamaremos 6. Un texto de 500 palabras, entonces, tiene aproximadamente 3000 caracteres de longitud. A partir de esto, y siguiendo el cálculo en el ensayo XKCD, nos da [matemáticas] 2 ^ {3300} [/ matemáticas], o aproximadamente [matemáticas] 10 ^ {1000} [/ matemáticas] ensayos diferentes.

Ni siquiera sé a dónde ir desde aquí. Si cada célula de cada persona que alguna vez vivió escribió un billón de ensayos por segundo durante toda la vida del universo, ni siquiera habrían comenzado a hacer mella en este número. Normalmente, me deleito en hacer este tipo de analogías, pero esto está tan lejos de ser posible que todo lo que se me ocurre parece un poco, bueno, tonto.

Quinientas palabras? Oportunidad cero. De hecho, obtienes efectivamente cero con una oración de aproximadamente 25 palabras.

El lingüista forense Malcolm Coulthard necesitaba hacer un comentario en la corte sobre lo raro que es pronunciar una oración en particular dos veces, usando exactamente las mismas palabras. Usó una oración que era parte de la evidencia del caso: “Le pregunté si podía llevar sus maletas”.

Usó Google como fuente de sus datos. Buscando la cadena de palabras “pregunté”, recibió más de dos millones de visitas. Cuando buscó “Le pregunté”, obtuvo solo 284,000 visitas. Cada vez que agregaba una palabra, el número de resultados se reducía aproximadamente en un orden de magnitud. Luego hubo una gran caída. Cuando agregó “carry” a la cadena, los resultados informados se redujeron en un factor de mil, devolviendo solo siete golpes.

Para toda la oración de nueve palabras, Google no encontró ninguna instancia de esa cadena de palabras en sus bases de datos.

Tome una clase de Matemática discreta o una clase de probabilidad de nivel superior y calcúlela usted mismo. La respuesta no es cero. Aunque está muy cerca, Constantine Yann. Hice un buen trabajo resolviéndolo.

Tomando una visión amplia:

Según el diccionario de Oxford: 171,476 palabras en uso.

Si el texto A está configurado y el texto B es un duplicado, las posibilidades de esto son:

  1. 1 / (171,476 ^ (500))