Si solo pudiera leer 10 libros para dominar el análisis de datos, ¿cuáles serían?

Aquí está mi lista, te daré cinco. He leído estos, o al menos los he leído. Los clasificaré en orden de cuán útiles los he encontrado personalmente.

Data Science for Business: este es excelente. No obtendrá mucho análisis estadístico en este libro, ni le enseñará cómo escribir código R o cómo crear un algoritmo de Machine Learning. Este libro ofrece información y ejemplos de cómo un científico de datos realmente realiza un análisis en un trabajo real, donde los datos son imperfectos y una decisión comercial es más importante que una respuesta 100% correcta. Si lees esto de principio a fin, estarás por delante de la mayoría de los científicos de datos que trabajan en problemas comerciales.

La pantalla visual de información cuantitativa: esta es una lectura obligatoria (o al menos una lectura obligada). Tufte describe básicamente cualquier tipo de método de visualización que necesite y le muestra la mejor manera de usarlo en una situación aplicable. Una de las partes más importantes de la ciencia de datos es la comunicación de su análisis: un análisis mediocre bien comunicado es mejor que un análisis excelente que nadie entiende. Admito que Tufte puede ser un poco “predicador” a veces con ciertas visualizaciones, pero la mayoría de esta información es excelente. (PD: gasta $ 4 adicionales y obtén la tapa dura, me lo agradecerás).

Cualquier libro de O’Reilly sobre el tema que elija: O’Reilly es, sin lugar a dudas, la mejor serie de libros para aprender una técnica desde cero. El libro R fue increíblemente útil para ayudarme a solidificar mis habilidades (lo usé más como referencia que como un pasador de páginas, pero podría funcionar de cualquier manera). Recomendaría cualquier libro de ellos sobre el tema de su elección (R, Python, Machine Learning, etc.), al igual que cualquier otra persona que los haya leído. Estos libros son donde aprendes tus habilidades difíciles. Si ya es un experto intermedio en un campo, puede que no sea tan útil. Si realmente quieres 10 libros, lee 6 de estos.

Contar historias con datos: este libro aborda un concepto muy importante: cómo contar una historia con sus datos. Te guiará paso a paso a través de cómo elaborar una narrativa convincente y cómo armar tu presentación. Tener un gran análisis y tener visualizaciones increíbles es una cosa, pero cautivar a una audiencia es una bestia completamente diferente. Este libro no le enseñará eso (solo la experiencia lo hará), pero es un buen comienzo.

Superforecasting: The Art and Science of Prediction: esta es una elección de nicho. No es práctico, no es paso a paso, y en realidad no te enseña nada. Sin embargo, este libro le hará comprender cómo funciona realmente el pronóstico. Antes de leer este libro, me encargaron elaborar un pronóstico para la métrica más importante en una empresa. Estaba muy loco y no tenía idea de por dónde empezar, hasta que leí este libro, y me di cuenta de que el pronóstico no es un arte mágico y místico que solo un mago o Jeff Dean podrían realizar. Es un ejercicio práctico que probablemente estará mal, pero es importante entender por qué está mal. Como dice la mejor crítica de Amazon, este libro te hace pensar.

Primero tenga en cuenta que la pregunta dice “análisis de datos”, no “ciencia de datos” y no “estadísticas”.

En segundo lugar, mi experiencia es principalmente en ciencias sociales, conductuales y médicas. Eso afecta lo que he leído y valorado.

OKAY:

  1. Estadísticas de Freedman, Pisani y Purves. (Diferentes ediciones por diferentes combinaciones de autores). No simplifica las cosas, pero no abruma con fórmulas. Te hace pensar. Te hace desconfiar de soluciones simples.
  2. Estadísticas como argumento basado en principios por Robert Abelson. Cómo deberían usarse las estadísticas para reforzar un argumento.
  3. Estrategias de modelado de regresión por Frank Harrell. La regresión es uno de los métodos más utilizados en el análisis de datos. Harrell te enseña a hacerlo bien.
  4. Modelos de regresión para variables dependientes categóricas y limitadas por J. Scott Long. Un buen libro sobre algunos otros métodos de regresión.
  5. Análisis de datos categóricos por Alan Agresti. La fuente definitiva.
  6. Algunos libros sobre el idioma / paquete que usará, ya sea R, SAS, Python, Matlab, SPSS, Lisp, Mathematica o lo que sea.
  7. Los elementos de graficar datos por William S. Cleveland y
  8. La pantalla visual de información cuantitativa también por Cleveland. Estos son los dos mejores libros sobre gráficos estadísticos (a diferencia del trabajo de Tufte, que es más general)
  9. Uso de estadísticas multivariadas de Barbara Tabachnik y Linda Fidell. Una buena encuesta de una amplia gama de métodos. Probablemente necesitará algunos libros más especializados sobre los métodos que utiliza, pero esto es un comienzo.

¡Son 9, no 10, pero creo que esos 9 llevarán a cualquiera a un buen nivel de experiencia o, lo que es más importante, conocimiento de falta de experiencia!