A continuación se enumeran los libros de más alta calidad sobre análisis predictivo / minería de datos / ciencia de datos que he encontrado hasta ahora, con un enfoque en libros más allá del nivel de introducción. La lista no está ordenada.
- Cuando nuevas personas sin mucha exposición previa al modelado predictivo entran en el mundo de la ciencia de datos, “Una introducción al aprendizaje estadístico” de James, Witten, Hastie y Tibshirani debería ser su primera lectura (y obligatoria para la OMI), es tan bueno (y es gratis: http://www-bcf.usc.edu/~gareth/ISL/.
- “Data Mining: The Textbook” de Charu C. Aggarwal http://www.amazon.com/Data-Mining-Textbook-Charu-Aggarwal/dp/3319141414 es sin duda el mejor libro avanzado sobre minería de datos / ciencia de datos / análisis predictivo que he leído Divertido de leer, profundo, que incluye importantes consideraciones teóricas y prácticas, que abarcan esencialmente todos los subcampos cruciales de la minería de datos y bastantes áreas clave de aplicaciones. Estoy 100% seguro de que se convertirá en un clásico, al que volveré a menudo durante la próxima década.
- El “Modelo predictivo aplicado” de Kuhn & Johnson también es muy bueno, con explicaciones y ejemplos completos. Más ejemplos de modelado en R: http://www.amazon.com/Applied-Pr….
- “Minería de datos: herramientas y técnicas prácticas de aprendizaje automático” por Ian H. Witten, Eibe Frank y Mark A. Hall también es genial. Comienza a partir de ejemplos y técnicas de juguetes súper simples, y progresa constantemente con la complejidad. Muy bien pensado a través de la disposición de capítulos y explicaciones claras de los métodos, discusiones de pros y contras de ciertas opciones, y mucha sabiduría práctica. Además, una parte práctica en WEKA. Minería de datos: herramientas y técnicas prácticas de aprendizaje automático, tercera edición (serie Morgan Kaufmann en sistemas de gestión de datos): Ian H. Witten, Eibe Frank, Mark A. Hall: 9780123748560: Amazon.com: Libros
- “Análisis de valores atípicos” por Aggarwal: http://www.amazon.com/Outlier-An…. Tenga en cuenta que esta no es una introducción fácil, y si necesita una, mejor aprenda y digiera, por ejemplo, “Introducción al aprendizaje estadístico” de James, Witten, Hastie y Tibshirani primero.
- “Minería de datos temporales” de Mitsa, exclusivamente sobre la minería de datos de series de tiempo, tiene toneladas de indicadores y comparaciones de rendimiento de algoritmos, de documentos de investigación originales y algos, muy breves e informativos: http: //www.amazon.com/Temporal -METRO….
- “Clasificación de datos: algoritmos y aplicaciones” editado por Aggarwal: debido a la cantidad de contribuyentes y la variedad de temas, la calidad varía, pero tiene algunos capítulos excelentes: http://www.crcpress.com/product/…. Es bastante avanzado, pero extremadamente informativo y práctico.
- “Gestión de mantenimiento orientado al pronóstico y al pronóstico de maquinaria” por Yan, para aquellos de nosotros que predicemos el comportamiento de la maquinaria.
- Para aquellos de nosotros que anidamos más en el mundo bayesiano, “Hacer análisis de datos bayesianos: un tutorial con R y BUGS” es un recurso excelente, sobre análisis bayesiano, inferencia y construcción de modelos: http://www.amazon.com/Doing- Baye …
- Corto, fácil e interesante, con muchos casos de uso para invitados: “Doing Data Science: Straight Talk from the Frontline” por Schutt & O’Neil: http://www.amazon.com/Doing-Data…, más el excelente popular libro de Nate Silver: “La señal y el ruido: por qué fallan tantas predicciones, pero algunas no”.