¿Cuál es un buen libro / tutorial para aprender sobre PySpark y Spark?

Me gustaría ofrecer un libro que escribí (divulgación completa) y es completamente gratuito. Hay una versión HTML del libro que tiene ejemplos de código de ejecución en vivo en el libro (Sí, se ejecutan directamente en su navegador). También hay una versión en PDF del libro para descargar (~ 80 páginas).

Comenzando con Apache Spark: desde el inicio hasta la producción

Fácil de consumir en unas pocas horas. Gran introducción a Spark (si lo digo yo mismo).

También hay cursos de capacitación en línea gratuitos a pedido disponibles de MapR
Apache Spark Essentials

Construir y monitorear aplicaciones Apache Spark

Crear aplicaciones de canalización de datos con Apache Spark

Es posible que estos no sean EXACTAMENTE lo que está buscando, pero hay una serie de lecciones valiosas, ejemplos e ideas que podrá aprender sobre el aprendizaje de Spark.

Te sugiero que comiences con los siguientes enlaces:

Introducción a Apache Spark (Introducción a Apache Spark)

Análisis de Big Data con Apache Spark (Análisis de Big Data con Apache Spark)

Descripción general: documentación de Spark 1.6.3 (Descripción general: documentación de Spark 1.6.3)

Practique los cuadernos compartidos y asegúrese de estar bien versado en los conceptos discutidos.

A continuación, dirígete a Databricks – Iniciar sesión (Databricks – Iniciar sesión)

gentil-introducción-a-apache-spark – Databricks (gentil-introducción-a-apache-spark – Databricks)

Databricks para científicos de datos – Databricks (Databricks para científicos de datos – Databricks)

Los enlaces anteriores deberían ser un resumen para usted.

Ahora, diríjase a un caso de uso en tiempo real: Análisis de registros de acceso de Apache con Databricks (Análisis de registros de acceso de Apache con Databricks)

Aquí hay algunos enlaces de Github que pueden ser útiles para usted:

1. matteoredaelli / pyspark-examples (matteoredaelli / pyspark-examples)

2. databricks / spark-knowledgebase (databricks / spark-knowledgebase)

3. databricks / spark-training (databricks / spark-training)

4. XD-DENG / Spark-practice (XD-DENG / Spark-practice)

5. databricks / learning-spark (databricks / learning-spark)

6. PacktPublishing / Learning-PySpark (PacktPublishing / Learning-PySpark)

7. jadianes / spark-py-notebooks (jadianes / spark-py-notebooks)

DrZ

Si está buscando aprender sobre Apache Spark, le recomiendo comenzar con el sitio web de Spark. Cubre muchos temas y también proporciona varios ejemplos sobre cómo trabajar con spark en Java, Scala y Python. Por lo tanto, puede elegir el idioma que prefiera y continuar.

Si no ha decidido completamente qué idioma elegir entre Python, Scala y Java, y no está seguro de cuál es mejor, le recomendaría que lea estas respuestas.

La respuesta de Swaroop a ¿Qué lenguaje de programación es bueno para manejar Hadoop y Spark: Java, Python o Scala?

La respuesta de Swaroop a ¿De dónde empiezo a aprender chispa? ¿Debo hacerlo con python o scala?

Y, para obtener más información sobre el aprendizaje de Spark, lea esta respuesta

La respuesta de Swaroop a ¿Cómo aprendo Apache Spark?

PD: La razón por la que le indiqué mis otras respuestas es porque ya he respondido varias preguntas individuales antes y no quería repetir las mismas cosas nuevamente.

Según mi experiencia, recomiendo los libros a continuación para aquellos que no tienen experiencia en programación y comienzan desde cero en Spark.

  1. Big Data Analytics with Spark ( Big Data Analytics with Spark: Una guía para el uso de Spark para el análisis de datos a gran escala: Mohammed Guller: 9781484209653: Amazon.com: Libros ): Esto cubre Scala básica con chispa.
  2. Spark in Action ( Spark in Action: Petar Zecevic, Marko Bonaci: 9781617292606: Amazon.com: Books ): Esto te ayudará a configurar un entorno virtual y a realizar algunas tareas prácticas.
  3. High Performance Spark ( Learning Spark: Lightning-Fast Big Data Analysis: Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia: 9781449358624: Amazon.com: Books ): Estos son libros muy recientes que cubren Spark SQL y Spark streaming.
  4. Learning PySpark ( Amazon.com: Learning PySpark (9781786463708): Tomasz Drabas, Denny Lee: Libros ): Esto es para aprender el Spark a través de Python.

Espero que esto te ayudará. Todo lo mejor para tu aprendizaje.

Todo se ha mencionado en otras respuestas, pero ha llegado un nuevo libro.

Recetas PySpark: un enfoque de solución de problemas con PySpark2

Este libro ha sido escrito usando un lenguaje muy simple. Se han explicado todos los pasos de solución del problema. También se ha incluido un capítulo sobre Python y NumPy. Allí para cualquiera puede entender PySpark. Al analizar cada problema y su solución, cualquiera puede comprender el tema en un esfuerzo fácil y lograr un conocimiento detallado de los temas.

La materia frontal se puede encontrar en

https://link.springer.com/conten

Puede encontrar una vista de alguna solución del problema en google books

https://books.google.co.in/books

También está disponible en Safari

se puede comprar desde muchos enlaces de Apress Springer Google Amazon y muchos más

  1. Recetas PySpark: un enfoque de solución de problemas con PySpark2 | Raju Kumar Mishra | Apress
  2. Recetas PySpark: un enfoque de solución de problemas con PySpark2 | Raju Kumar Mishra | Saltador
  3. Recetas de PySpark: un enfoque de solución de problemas con PySpark2: Raju Kumar Mishra: 9781484231401: Amazon.com: Libros
  4. https://books.google.co.in/books

Además de los excelentes recursos ya mencionados, hay dos buenos cuadernos de Python y una referencia para aprender los conceptos básicos de pySpark:

  1. tutorial: mahmoudparsian / pyspark-tutorial
  2. ejemplos: holdenk / learning-spark-examples
  3. ejemplos: apache / spark
  4. ejemplos: vsmolyakov / pyspark
  5. referencia: MLlib: Guía principal

Realmente me gustó el curso Introducción a Apache Spark y, por extensión, toda la serie de cursos, con Aprendizaje distribuido de máquinas con Apache Spark, Ciencia e ingeniería de datos con Apache® Spark ™ y Análisis de Big Data con Apache Spark. Todos estos son recursos realmente buenos.

Si desea leer un libro, le recomiendo Learning Spark y para un tutorial de resumen rápido, le recomiendo Apache Spark en Python: Guía para principiantes.

Consulte también esta hoja de trucos de PySpark: Spark in Python, que lo ayudará con las operaciones básicas de RDD, tales como reparticionamiento, resumen, operaciones matemáticas, …

Apache Spark es un marco maduro pero todavía no es un gran tutorial en línea. Pero es solo cuestión de tiempo y adaptabilidad.

La documentación en línea es la mejor documentación disponible en este momento y también es un buen comienzo.

PySpark : ¡Bienvenido a Spark Python API Docs!
Python / Java / Scala: Ejemplos | Apache Spark

Libro recomendado:

Learning Spark: Análisis de Big Data ultrarrápido: Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia: 9781449358624: Amazon.com
: Libros

Aprendí Apache Spark del tutorial en línea y, por lo tanto, puedo contarte sobre eso. También le sugiero que aprenda en línea, ya que puede encontrar información actualizada sobre las tecnologías con las últimas actualizaciones tecnológicas. Los sitios web a los que me referí fueron Intellipaat y lo encontré excepcional. Este instituto no solo enseña Spark sino que también le enseña cómo integrarlo con el lenguaje de programación Scala. Dado que se sabe que Spark y Spark son una combinación de tecnología alucinante, aprender Scala lo ayudará a obtener buenos trabajos de big data.

Consulte el curso de capacitación Apache Spark de Intellipaat:

Tutorial de Apache Spark – Intellipaat

La mejor parte de esta capacitación es que Intellipaat lo prepara para el examen de certificación Cloudera Spark y Hadoop Developer (CCA175), que es una certificación altamente creíble. El enfatizar la importancia de la experiencia práctica a través de proyectos del mundo real le da a Intellipaat una identidad distintiva.

Aprenda más sobre Spark con este video de Intellipaat:

edX ofrece dos cursos en Spark a través de UC Berkley. CS 190X (aprendizaje automático escalable) y CS100.1X (introducción a Big Data con Apache Spark).
Son gratis a menos que pague por tener un certificado ($ 50). Ya han comenzado, pero parecen hacer que las clases archivadas estén disponibles después de que hayan terminado.
Cursos

PySpark es el enlace de Python para la plataforma Spark y la API y no es muy diferente de las versiones de Java / Scala. Un buen punto de partida es la página oficial, es decir, Ejemplos | Apache Spark

Aprender Scala es una mejor opción que Python, ya que Scala es un lenguaje funcional que facilita la paralización del código, que es una gran característica si se trabaja con Big-data.

Hay muchos cursos disponibles en el mercado. Hay un buen libro llamado Learning Spark. Parece que está planeando ingresar a Spark, pero antes de saltar verificó su elegibilidad o no. Debe hablar con algún experto y comprender si la carrera profesional será adecuada para usted o si simplemente está pensando en algo que es muy popular pero adecuado o no para un individuo. Le sugiero que hable con Simplilearn Apache Spark y Scala Certification Training
El instituto es reconocido a nivel mundial y tiene experiencia en brindar capacitación en diferentes temas además de BigData
Una cosa más es la rentabilidad y la disponibilidad del curso y el soporte técnico 24/7.

Comenzando con Apache® Spark ™ en Databricks

Hay muchos recursos de aprendizaje en Databricks Cloud. Principalmente vienen en forma de cuadernos de estilo jupyter, y también puedes encontrar conferencias de los cursos edX Spark de 2015 allí.

Aprendiendo del sitio web libremente.

Aprendizaje de Big Data Analytics

Saludos,

Cucharón Patel

La capacitación en línea de Spark scala en DataFlair me ayudó a aprender la tecnología completa de manera muy detallada. Incluso pude aprender los conceptos de Hadoop HDFS también a través de su curso complementario que recibí de ellos. También realicé proyectos allí y cuestionarios y entrevistas simuladas me ayudaron a aumentar mi confianza. El entrenamiento fue bueno y más de lo esperado. Si está buscando aprender chispa, definitivamente le sugeriremos que siga el curso DataFlair.

Mira la respuesta aquí
¿Cómo aprendo Apache Spark?