¿Cuál es el mejor libro para aprender minería de datos?

He leído varios libros de minería de datos para enseñar minería de datos y como investigador de minería de datos.

Si proviene de un perfil informático, el mejor es en mi opinión: “Introducción a la minería de datos” por Tan, Steinbach y Kumar. Es un libro que cubre muchos temas clave y es fácil de leer, aunque ahora está un poco desactualizado.

Mi segundo mejor libro es el de Han & Kamber. Pero creo que es mejor leerlo como su segundo libro porque es más parecido a una enciclopedia (habla de MUCHAS cosas pero no entra demasiado en los detalles de cada técnica).

Recientemente, otro libro mío favorito es el libro de Mohamed Zaki. Puede encontrar un PDF del borrador de este libro en línea. También es un libro muy bueno para estudiantes de informática. Cubre algunos temas recientes, como la minería de gráficos. Además, ofrece muchos detalles sobre los algoritmos a diferencia del libro de Han & Kamber.

Si está más interesado en las estadísticas, puede leer Elemento del aprendizaje estadístico.

1- Principios de minería de datos (computación adaptativa y aprendizaje automático)

Principios de minería de datos (Computación adaptativa y aprendizaje automático): David J. Hand, Heikki Mannila, Padhraic Smyth: 9780262082907: Amazon.com: Libros

El creciente interés en la minería de datos está motivado por un problema común en todas las disciplinas: ¿cómo se almacena, accede, modela y finalmente describe y comprende conjuntos de datos muy grandes? Históricamente, diferentes aspectos de la minería de datos han sido abordados independientemente por diferentes disciplinas. Este es el primer texto verdaderamente interdisciplinario sobre minería de datos, que combina las contribuciones de la ciencia de la información, la informática y las estadísticas.

El libro consta de tres secciones. El primero, fundamentos, proporciona una visión general tutorial de los principios subyacentes a los algoritmos de minería de datos y su aplicación. La presentación enfatiza la intuición más que el rigor. La segunda sección, algoritmos de minería de datos, muestra cómo se construyen los algoritmos para resolver problemas específicos de una manera basada en principios. Los algoritmos cubiertos incluyen árboles y reglas para clasificación y regresión, reglas de asociación, redes de creencias, modelos estadísticos clásicos, modelos no lineales como redes neuronales y modelos locales “basados ​​en memoria”. La tercera sección muestra cómo se ajusta todo el análisis anterior cuando se aplica a problemas de minería de datos del mundo real. Los temas incluyen la función de los metadatos, cómo manejar los datos faltantes y el preprocesamiento de datos.

2- Hadoop: la guía definitiva

Hadoop: la guía definitiva: Tom White: 9781491901632: Amazon.com: Libros

Prepárese para desbloquear el poder de sus datos. Con la cuarta edición de esta guía completa, aprenderá a construir y mantener sistemas confiables, escalables y distribuidos con Apache Hadoop. Este libro es ideal para programadores que buscan analizar conjuntos de datos de cualquier tamaño y para administradores que desean configurar y ejecutar clústeres de Hadoop.

Usando Hadoop 2 exclusivamente, el autor Tom White presenta nuevos capítulos sobre YARN y varios proyectos relacionados con Hadoop como Parquet, Flume, Crunch y Spark. Aprenderá sobre los cambios recientes en Hadoop y explorará nuevos estudios de caso sobre el papel de Hadoop en los sistemas de atención médica y el procesamiento de datos genómicos.

  • Aprenda componentes fundamentales como MapReduce, HDFS y YARN
  • Explore MapReduce en profundidad, incluidos los pasos para desarrollar aplicaciones con él
  • Configure y mantenga un clúster de Hadoop que ejecute HDFS y MapReduce en YARN
  • Aprenda dos formatos de datos: Avro para la serialización de datos y Parquet para datos anidados
  • Use herramientas de ingestión de datos como Flume (para la transmisión de datos) y Sqoop (para la transferencia de datos a granel)
  • Comprenda cómo funcionan las herramientas de procesamiento de datos de alto nivel como Pig, Hive, Crunch y Spark con Hadoop
  • Conozca la base de datos distribuida de HBase y el servicio de configuración distribuida de ZooKeeper

3- Ciencia de datos para empresas: lo que necesita saber sobre minería de datos y pensamiento analítico de datos

Amazon.com: Data Science for Business: lo que necesita saber sobre la minería de datos y el pensamiento electrónico de análisis de datos eBook: Foster Provost, Tom Fawcett: Kindle Store

Escrito por los renombrados expertos en ciencia de datos Foster Provost y Tom Fawcett, Data Science for Business presenta los principios fundamentales de la ciencia de datos y lo guía a través del “pensamiento analítico de datos” necesario para extraer conocimiento útil y valor comercial de los datos que recopila. Esta guía también lo ayuda a comprender las muchas técnicas de minería de datos que se utilizan actualmente.

4- Big Data: principios y mejores prácticas de sistemas de datos escalables en tiempo real

Big Data: Principios y mejores prácticas de sistemas de datos escalables en tiempo real: Nathan Marz, James Warren: 9781617290343: Amazon.com: Libros

Big Data le enseña a construir sistemas de big data utilizando una arquitectura que aprovecha el hardware en clúster junto con nuevas herramientas diseñadas específicamente para capturar y analizar datos a escala web. Describe un enfoque escalable y fácil de entender para los sistemas de big data que un pequeño equipo puede crear y ejecutar. Siguiendo un ejemplo realista, este libro guía a los lectores a través de la teoría de los sistemas de big data, cómo implementarlos en la práctica y cómo implementarlos y operarlos una vez que están construidos.

5- Análisis de datos hecho accesible

Amazon.com: Análisis de datos accesible eBook: Anil Maheshwari: Tienda Kindle

Este libro llena la necesidad de un libro conciso y conversacional sobre el creciente campo de Data Analytics y Big Data. Fácil de leer e informativo, este libro lúcido cubre todo lo importante, con ejemplos concretos, e invita al lector a unirse a este campo. Los capítulos del libro están organizados para un curso típico de un semestre.

6- Data Smart: uso de la ciencia de datos para transformar la información en información

Amazon.com: Data Smart: uso de la ciencia de datos para transformar la información en un libro electrónico Insight: John W. Foreman: Kindle Store

Data Science es arrojado a la prensa como si fuera magia. Los principales minoristas predicen todo, desde cuando sus clientes están embarazadas hasta cuando quieren un nuevo par de Chuck Taylors. Es un mundo nuevo y valiente donde los datos aparentemente sin sentido se pueden transformar en información valiosa para impulsar decisiones comerciales inteligentes.

7- Minería en la red social: minería de datos en Facebook, Twitter, LinkedIn, Google+, GitHub y más

Mining the Social Web: Minería de datos en Facebook, Twitter, LinkedIn, Google+, GitHub y más: Matthew A. Russell: 9781449367619: Amazon.com: Libros

¿Cómo puede aprovechar la gran cantidad de datos de redes sociales para descubrir quién está haciendo conexiones con quién, de qué están hablando y dónde se encuentran? Con esta edición ampliada y completamente revisada, aprenderá cómo adquirir, analizar y resumir datos de todos los rincones de la web social, incluidos Facebook, Twitter, LinkedIn, Google+, GitHub, correo electrónico, sitios web y blogs.

8- Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción, segunda edición (Serie Springer en estadística)

Amazon.com: The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition (Springer Series in Statistics) (9780387848570): Trevor Hastie, Robert Tibshirani, Jerome Friedman: Books

Durante la última década ha habido una explosión en la informática y la tecnología de la información. Con esto han llegado grandes cantidades de datos en una variedad de campos como la medicina, la biología, las finanzas y el marketing. El desafío de comprender estos datos ha llevado al desarrollo de nuevas herramientas en el campo de la estadística, y ha generado nuevas áreas como la minería de datos, el aprendizaje automático y la bioinformática. Muchas de estas herramientas tienen bases comunes, pero a menudo se expresan con una terminología diferente. Este libro describe las ideas importantes en estas áreas en un marco conceptual común.

9- Minería de datos: conceptos y técnicas, segunda edición (serie Morgan Kaufmann en sistemas de gestión de datos)

Data Mining: Concepts and Techniques, Second Edition (The Morgan Kaufmann Series in Data Management Systems): 9781558609013: Computer Science Books @ Amazon.com

Nuestra capacidad para generar y recopilar datos ha aumentado rápidamente. No solo todas nuestras transacciones comerciales, científicas y gubernamentales ahora están informatizadas, sino que el uso generalizado de cámaras digitales, herramientas de publicación y códigos de barras también genera datos. En el lado de la colección, las plataformas de texto e imágenes escaneadas, los sistemas de sensores remotos satelitales y la World Wide Web nos han inundado con una enorme cantidad de datos. Este crecimiento explosivo ha generado una necesidad aún más urgente de nuevas técnicas y herramientas automatizadas que puedan ayudarnos a transformar estos datos en información y conocimiento útiles.

10- Técnicas de minería de datos: para marketing, ventas y gestión de relaciones con clientes

Técnicas de minería de datos: para marketing, ventas y gestión de la relación con el cliente: Gordon S. Linoff, Michael JA Berry: 9780470650936: Amazon.com: Libros

¡El libro introductorio líder en minería de datos, totalmente actualizado y revisado!

Cuando Berry y Linoff escribieron la primera edición de Técnicas de minería de datos a fines de la década de 1990, la minería de datos apenas comenzaba a salir del laboratorio a la oficina y desde entonces se ha convertido en una herramienta indispensable para los negocios modernos. Esta nueva edición, más del 50% nueva y revisada, es una actualización significativa de la anterior, y le muestra cómo aprovechar los métodos y técnicas de minería de datos más nuevos para resolver problemas comerciales comunes. El dúo de autores sin paralelo comparte consejos invaluables para mejorar las tasas de respuesta a campañas de marketing directo, identificar nuevos segmentos de clientes y estimar el riesgo de crédito. Además, cubren temas más avanzados, como la preparación de datos para el análisis y la creación de la infraestructura necesaria para la minería de datos en su empresa.

11-Ciencia de datos desde cero: primeros principios con Python

Ciencia de datos desde cero: primeros principios con Python 1, Joel Grus, eBook – Amazon.com

Las bibliotecas, los marcos, los módulos y los kits de herramientas de ciencia de datos son excelentes para hacer ciencia de datos, pero también son una buena manera de sumergirse en la disciplina sin comprender realmente la ciencia de datos. En este libro, aprenderá cuántas de las herramientas y algoritmos de ciencia de datos más fundamentales funcionan al implementarlos desde cero .

Si tiene aptitudes para las matemáticas y algunas habilidades de programación, el autor Joel Grus lo ayudará a sentirse cómodo con las matemáticas y las estadísticas en el núcleo de la ciencia de datos, y con las habilidades de pirateo que necesita para comenzar como científico de datos. El desorden de datos desordenado de hoy contiene respuestas a preguntas que nadie pensó hacer. Este libro le proporciona los conocimientos para extraer esas respuestas.

Gracias por la A2A, Steve Solun! Estas son algunas de mis recomendaciones personales:

  • Minería de conjuntos de datos masivos: favorito personal: excelente lectura, explicaciones agradables y accesibles y de libre acceso.
  • https://docs.rapidminer.com/down … (para cuando consideraría hacer minería de datos RapidMiner)

Además, verificaría las siguientes listas de libros:

  • Los 10 mejores libros de Amazon en minería de datos, edición 2016
  • 27 libros gratuitos de minería de datos – DataOnFocus

Es más fácil aprender de una clase en línea.

Técnicas de minería de datos

La minería de datos es uno de los métodos más utilizados para extraer información de grandes conjuntos de datos. Existen varias técnicas de minería de datos. La técnica de minería de datos que se use dependerá del problema que intente resolver. Hay toneladas de datos disponibles pero muy poco conocimiento. El mayor desafío es analizar los datos para extraer información significativa que pueda usarse para resolver un problema o para el crecimiento del negocio. Existen potentes herramientas y técnicas disponibles para extraer datos y encontrar información a partir de ellos.

A continuación se muestra la lista de las técnicas de minería de datos más comunes.

Análisis de clasificación

El análisis de clasificación se utiliza para clasificar los datos en diferentes clases. Con la ayuda de un algoritmo avanzado, los datos se pueden clasificar en clases predefinidas y los datos segregados se pueden analizar más a fondo para obtener mejores resultados. El aprendizaje automático hace un uso óptimo del análisis de clasificación y puede entrenar una máquina para segregar datos en función de las condiciones (algoritmos) con los que alimenta las máquinas.

Análisis de regresión

En estadística, el análisis de regresión es el proceso de determinar una relación entre múltiples variables. Puede ayudarlo a comprender la característica de la variable dependiente si cambia el valor de la variable independiente. También le ayuda a determinar si las variables dependen unas de otras y, en caso afirmativo, en qué medida.

Regla de asociación

La regla de asociación es una técnica que puede ayudarlo a encontrar alguna relación interesante entre variables en conjuntos de datos muy grandes. La regla de asociación puede ayudarlo a extraer patrones ocultos en los datos que de otro modo no serían visibles. La industria minorista utiliza la regla de asociación más. Ayuda en el diseño del catálogo, el análisis de datos de la cesta de envío y la agrupación de productos. Los profesionales de TI utilizan la regla de asociación para crear el software capaz de autoaprendizaje (aprendizaje automático).

Hoy en día, la demanda de analistas de datos y científicos de datos es tan alta que las empresas están luchando por cubrir sus puestos vacantes. Habrá una escasez de alrededor de 200,000 científicos de datos solo en los EE. UU. Para 2020. Un científico de datos es el título de trabajo más solicitado en el mercado y, según la tendencia, seguirá siéndolo durante las próximas dos décadas.

Si necesita más información sobre minería de datos o ciencia de datos, no dude en llamar al 72270-48673.

En AI Optify, hemos raspado la web abierta para recopilar muchas señales (por ejemplo, reseñas y calificaciones en línea, temas cubiertos en el libro, influencia del autor en el campo, precio, etc.) para cientos de libros de aprendizaje automático, minería de datos y PNL.

Combinamos todas las señales para calcular un Nivel de calidad para cada libro y publicamos la lista de libros Top Machine Learning y Data Mining.

Nuestra lista es D ata-Driven & O bjective porque ha comparado todos los libros con los mismos datos / metodología.

Puede consultar la lista visitando el siguiente enlace:

Los mejores libros de aprendizaje automático, minería de datos y PNL para científicos de datos e ingenieros de aprendizaje automático

Minería de datos: conceptos y técnicas de Han y Kamber
Data Mining: Concepts and Techniques, Third Edition (The Morgan Kaufmann Series in Data Management Systems): Jiawei Han, Micheline Kamber, Jian Pei: 9780123814791: Amazon.com: Libros

Recomendaría que este Data Mining for Business Intelligence lo guíe a través del desarrollo de modelos predictivos y técnicas para describir y encontrar patrones en sus datos comerciales. Proporciona una guía detallada y detallada sobre técnicas fundamentales de minería de datos. Con ejemplos interesantes y del mundo real, podrá construir una comprensión teórica y práctica de los métodos clave de minería de datos, incluida la clasificación, la predicción y el análisis de afinidad, así como la reducción, exploración y visualización de datos. Para más libros, he enumerado algunos de los mejores minig books de datos.

Recomiendo encarecidamente Introducción a la minería de datos por Pang-Ning Tan, Vipin Kumar y Michael Steinbach.

http://www-users.cs.umn.edu/~kum

Tomé este curso como estudiante de pregrado y disfruté mucho leyendo este libro. Junto con los ejemplos, proporciona una excelente introducción para los algoritmos de minería de datos y aprendizaje automático.

El mejor libro para consultar es Conceptos y técnicas de minería de datos de Han & Kamber. Cubre todos los conceptos básicos de minería de datos, pero recomiendo practicar mucho ya que este libro cubre la teoría requerida pero no tiene implementaciones de código.

Consulte Mathematics Stack Exchange y Stack Overflow: donde los desarrolladores aprenden, comparten y desarrollan carreras para sus consultas.

La mejor de las suertes 🙂

Los siguientes libros me parecieron particularmente útiles para conocer la minería y el análisis de datos. Ambos libros cubren mucho terreno a través de ejemplos / análisis en conjuntos de datos del mundo real.
(A) Minería de la web social
(B) Python para análisis de datos

Ningún libro es “el mejor”. Elija uno y lea. Sin embargo, creo que los libros generalmente no son la forma más eficiente de aprender.

Desafortunadamente, sobre este tema en particular, no hay muchos libros. Hay uno de Han, uno de los * investigadores * más conocidos en el campo, pero el libro me pareció terrible. No explica bien en absoluto, y créanme, incluso tiene una gramática pobre.