¿Qué tipo de temas y cosas debería saber la gente sobre Hadoop Essentials?

Shiva Achari,

Gracias por pedir mi opinión y mis disculpas por mi lenta respuesta.
Primero, debo decir por adelantado que mi empresa, PatternBuilders, vende un sistema de análisis en tiempo real basado en la nube junto con servicios profesionales que cooperan con el ecosistema Hadoop, por lo que ciertamente tengo algunos sesgos.

En términos de cosas que creo que son esenciales para este libro:

  • Hadoop como un sistema de archivos de trabajo / proceso, control / especializado frente a las capacidades de Hadoop que se utilizan para habilitar la programación analítica.
  • Historial de marcos de procesamiento distribuido y cómo Hadoop difiere de ellos y las razones para elegirlo sobre otras alternativas.
  • Procesamiento Batch vs Stream y una discusión sobre cómo Hadoop está tratando de evolucionar desde su herencia de lotes con Storm.
  • Una mirada realista a las habilidades de administración y programación requeridas por Hadoop. Esto es lo que más sorprende a las personas que compraron una distribución de Hadoop.
  • Hadoop vs otras tecnologías de procesamiento distribuido actualmente en uso
  • Hadoop vs sistemas analíticos puros (SAS, R, …).
  • Enfoques analíticos basados ​​en Hadoop vs Hardware como Teradata.
  • Diferencia entre varias distribuciones de Hadoop.
  • Características de rendimiento y cómo mejorarlas tanto en la nube como en las instalaciones.
  • Uso de Hadoop para Social Graph Analytics: Twitter, etc.
  • Seguridad.
  • Descripción de la pila cada vez mayor de módulos Hadoop.
  • Hadoop vs sistemas de transmisión / casi en tiempo real / CEP más nuevos como Patternbuilders y tecnología más antigua como Tibco o los productos de análisis de transmisión de Microsoft.

Espero que ayude,

Mejor,

Terence

1a. Explicar la arquitectura MR1 y MR2 en detalle. También proporcione las diferencias arquitectónicas entre estos 2 con imágenes fáciles de entender. Por ejemplo: imágenes como las de los libros principales de la primera serie. ¿Por qué elegir uno sobre el otro? ¿Las organizaciones realmente necesitan actualizar a MR2? Si es así, ¿cuáles son las cosas a tener en cuenta antes de la actualización?

1b. Pasos de instalación para los 3 modos y diferencias arquitectónicas. ¿Por qué elegir uno sobre el otro?

2. Forme el libro como si construyera una historia sobre cómo desarrollar una receta y, por lo tanto, explicara cada concepto. A medida que avanza de un capítulo a otro, hable sobre cada componente del ecosistema hadoop y explique cómo cada componente encaja en su historia.

3. No te detengas solo con ejemplos de conteo de palabras. Ilustrar algunos problemas del mundo real (sin embargo, no es necesario incluir una solución completa, pero los extractos sí lo harían)

4. Incluya a los sospechosos habituales cerdo, colmena, canal, sqoop, hbase (básicos), cuidador del zoológico, etc. con un ejemplo o 2. Y vea cómo puede encajar esto en la historia.

Por favor, incluya esto al principio: “bigdata no es un software”. :pag