Cómo leer 800 archivos PDF en minero rápido y agruparlos

Hola,

Me gustaría saber un poco más de detalle sobre su problema. ¿Puedes decirme a qué te refieres con “palabra sin sentido”? Supongo que te refieres a la salida de tu proceso Stem.

La derivación funciona reduciendo las palabras a su raíz, por ejemplo, la ropa, la ropa, la ropa se convierte en tela, muy útil para la agrupación. Sin embargo, a veces las palabras raíz que proporciona pueden ser un poco difíciles de entender … abrazar, abrazar, abrazar se convierten en abrazos

¿Son palabras como esta las que no tienen sentido?

También podría significar que tiene muchas palabras en sus documentos y desea saber cuáles son importantes con respecto a sus grupos. Hay muchas maneras de hacer esto, pero recomendaría el operador Peso por valor promedio.

No dude en publicar un proceso de muestra en RapidMiner Community y podemos sugerirle más correcciones.