¿Cómo comenzar una carrera en big data? ¿Cuál es el mejor libro disponible para comprender big data tanto en términos de hardware como de software?

Big Data es un término bastante vago. Existen varias definiciones diferentes de Big Data, la más común son los 3V: velocidad, volumen, variedad. Prefiero mi propia definición (quizás simplista): Big Data es el almacenamiento y el procesamiento de datos que es demasiado grande para que una sola máquina pueda manejarlo.

Me gusta dividir Big Data en dos subcampos principales:

1. Gestión de TI / Administración de bases de datos: este campo ciertamente no es nuevo, pero está pasando por una revolución en estos días. Debe leer sobre Apache Hadoop y los sistemas de gestión de bases de datos relacionales (RDBMS) como MongoDB. Recomiendo la Biblia de Hadoop, Hadoop: The Definitive Guide: sepa que debe tener algunos conceptos básicos en Java para poder comprender las partes principales del libro.

2. Análisis de datos: una vez más, este campo no es nuevo, se remonta a la investigación en el campo de la inteligencia artificial en la década de 1940. Este campo está respaldado por Estadísticas, por lo que definitivamente debe leer un libro o dos en el campo. Yo personalmente recomiendo las estadísticas de Coursera One. También eche un vistazo a Andrew NG’s
La clase de aprendizaje automático de Andrew Ng (que en realidad comenzó Coursera …).

Mr.Ng está usando Octave / MATLAB en el curso, pero también debe aprender otros lenguajes de programación como R o Python y descubrir los paquetes relacionados de Big Data / Machine Learning. Estoy trabajando principalmente con R y puedo recomendar Data Mining con Rattle y R. Sin embargo, Python parece una opción más adecuada si tienes experiencia en TI. En realidad, ¡deberías aprender ambos!

También deberías considerar Cloud Computing. Amazon Web Services es bastante sencillo. Recomiendo revisar los Tutoriales oficiales de AWS.

Además, puedo recomendar Kaggle un millón de veces, que lució todo el campo. Tienen algo para todos, por lo que debe comenzar con desafíos fáciles (para Conocimiento) y avanzar a desafíos con un premio monetario más adelante.

Lo siento si esto fue un poco abrumador. Doing Data Science es un gran libro que cubre la mayoría de estos temas. ¡Deberías comenzar por allí!