¿Cómo aprendo estadísticas para la ciencia de datos? ¿Qué libro de estadística le recomienda a un aspirante a científico de datos que esté familiarizado con las estadísticas básicas y las matemáticas?

Si está interesado en aprender estadísticas específicamente para convertirse en un científico de datos, le recomendaría buscar tantas aplicaciones de codificación como pueda.

Específicamente, recomendaría los siguientes tres libros, todos disponibles en línea de forma gratuita y que contienen aplicaciones en Python o R.

  • Introducción al aprendizaje estadístico (enfoque R): página en usc.edu
  • Elementos de aprendizaje estadístico (enfoque R): minería de datos, inferencia y predicción. 2da edición.
  • Think Stats (enfoque de Python): probabilidad y estadísticas para programadores

Si elige entre R o Python, consulte ¿Cuál es mejor para el análisis de datos: R o Python? ¿R sigue siendo un mejor lenguaje de análisis de datos que Python? ¿Alguien más ha usado Python con Pandas, en gran medida, en proyectos de análisis de datos? (Mi recomendación es aprender ambos, comenzando con su favorito).

Además, consulte mi respuesta a ¿Cómo me convierto en un científico de datos? y las Preguntas frecuentes sobre ciencia de datos de Quora en ¿Cuál es la pregunta frecuente sobre temas de ciencia de datos?

Primero, el consejo más importante que puedo darle es enfatizar la práctica sobre la teoría. No es que la teoría no sea importante (lo es), pero naturalmente dominarás la teoría a medida que aprendas haciendo.

Elija un lenguaje de programación (recomiendo Python o R) y explore cada concepto de manera práctica (recursos a continuación).

Recomiendo un proceso de 3 pasos para recoger las habilidades estadísticas necesarias para la ciencia de datos:

Paso 1: conceptos básicos de estadísticas

  • Estadística descriptiva (para análisis exploratorio)
  • Diseño experimental (es decir, pruebas A / B, pruebas de hipótesis, significancia estadística, etc.)
  • Distribuciones de probabilidad comunes (especialmente gaussianas y binomiales)
  • Modelado de regresión
  • Aquí hay un libro gratuito para aprender haciendo: Think Stats

Paso 2: pensamiento bayesiano

  • La probabilidad condicional
  • Priors, posteriores, priors conjugados
  • Máxima verosimilitud
  • Aquí hay un libro gratuito para aprender haciendo: Piensa en Bayes

Paso 3: Introducción al aprendizaje automático estadístico

  • Regresión logística
  • Bayes ingenuos
  • Bandidos multi-armados
  • Aquí hay un libro gratuito con ejemplos en R : Introducción al aprendizaje estadístico
  • El objetivo de este último paso es familiarizarse con aplicaciones específicas de estadística en ciencia de datos (especialmente en aprendizaje automático).

Puede encontrar más detalles y orientación para utilizar este enfoque aquí:

  • Cómo aprender estadísticas para la ciencia de datos, la manera de iniciarse

No me enfocaría tanto en las estadísticas de aprendizaje “para la ciencia de datos”, sino más en solo “estadísticas de aprendizaje”. Data Science en sí es una combinación de dos campos, estadística / matemáticas y ciencias de la computación. Hubo “científicos de datos” que se sentaron en la intersección de esos dos campos mucho antes de que se acuñara el término.

Muchas de las respuestas anteriores (¡que son geniales!) Están dirigidas específicamente al “aprendizaje automático”. Al obtener una perspectiva más amplia, obtienes la capacidad no solo de implementar los modelos, sino también de comprender cómo se conectan y cómo se relacionan con las matemáticas más profundas detrás de ellos, por lo tanto, esta publicación está más dirigida al campo general.

En términos de estadísticas que son inmediatamente útiles para la ciencia de datos, generalmente caen en una de dos categorías, ya sea 1) inferencia o 2) ajuste del modelo.

1) En lo que respecta a la inferencia que típicamente temas como:

1) Estimación de parámetros
2) Prueba de hipótesis
3) Análisis Bayesiano
4) Identificar el mejor estimador
5) Otra teoría estadística

Algunos libros clásicos sobre estos temas incluyen:
(más introductorio): Inferencia estadística: George Casella: 9788131503942: Amazon.com: Libros
(más avanzado): Teoría de la estimación puntual (2ª edición en inglés): EL Lehmann, George Casella: 9783698745156: Amazon.com: Libros

2) En lo que respecta al ajuste del modelo, hay una multitud de temas:

1) regresión lineal
2) Regresión no lineal
3) Análisis de datos categóricos
4) Series temporales y análisis longitudinal
5) Aprendizaje automático

Algunos libros de introducción famosos incluyen:

Modelos lineales: Modelos estadísticos lineales aplicados con CD-ROM del estudiante: Michael H. Kutner, John Neter, Christopher J. Nachtsheim, William Li: 9780071122214: Amazon.com: Libros
Datos categóricos: Amazon.com: Introducción al análisis de datos categóricos (9780471226185): Alan Agresti: Libros

3) Finalmente, también hay una variedad de temas que son muy útiles con cosas como pruebas A / B, datos faltantes, etc.
Estos incluyen cosas como:

1) Diseño de experimentos (muy útil en pruebas A / B)
2) Bootstrapping (útil cuando el parámetro de interés es difícil de calcular)
3) Cálculos de tamaño de muestra (útil cuando se trata de comprender cuántas muestras necesita)
4) Comparaciones múltiples (qué sucede si ejecuta muchas pruebas)
5) Un montón de otros.

Muchos de los anteriores se encontrarán a medida que supere los puntos 1) y 2) anteriores.

Si está interesado en un posible programa introductorio, le enseñaré un bootcamp en breve. El curso y el programa de estudios se encuentran aquí:

Fundamentos Estadísticos – Metis

¡Espero que esto ayude!

Para repasar algunas estadísticas básicas, sin dejar caer una carga de dinero en efectivo en un libro de texto / título, me gustaría sugerir que comience leyendo una serie de manuales breves (PDF de 10-12 páginas por tema) destinados al principiante estadístico e investigador de ciencias sociales escrito por el estudiante de doctorado MIT EECS Ramesh Sridharan.

Enseñó un curso de 1 mes en el MIT para investigadores que repasaron estadísticas básicas o intermedias, y subió todos sus archivos PDF. (Puede consultar el sitio web aquí: Estadísticas para proyectos de investigación)

Me topé con sus notas mientras buscaba algunos detalles con respecto a la prueba de Kolmogorov-Smirnov: una prueba no paramétrica (una prueba no paramétrica es una prueba que no asume que los datos tienen algún tipo de distribución de probabilidad, y por lo tanto es “parámetro “libre de diferencias” en dos distribuciones, y descubrió que sus notas estaban increíblemente escritas y claras.

Si tiene cierta madurez matemática o técnica, puede encontrar sus notas igualmente útiles para ponerse al día. Si no, sigo pensando que sus notas son un excelente punto de entrada inicial para obtener rápidamente un plano de la tierra.

El enlace está a sus 6-7 notas, un total de ~ 70 páginas, está aquí: Estadísticas para proyectos de investigación

Tenga en cuenta que no tiene notas sobre el modelado predictivo, que es una parte clave del aprendizaje automático. Le envié un correo electrónico preguntándole por qué, y él me dijo que no tenía la oportunidad de escribir nada detallado sobre el tema. Estoy considerando redactar un breve manual …

Nota : esta respuesta asume que ya trabajas como científico de datos

Una vez que ya eres un científico de datos (tienes un trabajo) creo que estás totalmente solo. Además, debe ser aún más responsable que antes sobre su propia educación. Con las estadísticas es diferente que con otras áreas. Si tiene que comenzar a usar una nueva biblioteca y no sabe cómo, su código simplemente no funcionará, pero con las estadísticas no es tan fácil.

Obviamente, esto depende de su lugar de trabajo, pero si está trabajando en la industria y está prestando un servicio, es probable que las personas a las que informa no tengan el tiempo o el conocimiento para detectar si usted ‘ estás haciendo un buen trabajo o no en términos de estadísticas. A veces, un trabajo muy malo se verá completamente bien, pero los números debajo del capó serán un desastre. Obviamente, las conclusiones o las recomendaciones que proporcione serán incorrectas y, a la larga, tendrá un mal desempeño.

Entonces, con esto dicho, si quieres seguir aprendiendo estadísticas, creo que solo tienes que ser curioso. Compre libros sobre el tema, lea documentos, suscríbase a los feeds (aquí en Quora hay estadísticos increíbles) y continúe. Es mejor que nadie que sepa dónde están sus áreas grises. Si necesita pulir algunos conocimientos básicos, puede ir a los libros de texto. Una muy buena (como probablemente sepa) es la escrita por Freedman.

Además, una fuente muy buena de conocimiento que a veces se ignora son los podcasts . Hay muy buenas de las que puedes aprender, como freakonomics o dataskeptics, solo por mencionar algunas.

Lista de trabajo, sugiera ediciones, necesita clasificaciones

Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción, segunda edición [1]
-Hastie Tibshirani, Friedman

Inferencia estadística [2]
-Casella, Berger
–Excelente texto inicial para pasar a material más avanzado

Análisis de datos bayesianos [3]
-Gelman, Carlin, Popa, Rubin

Minería de conjuntos de datos masivos [4]
-Rajaraman, Ullman, Leskovec

Todas las estadísticas [5]
-Wasserman

Además, para obtener una lista muy completa, vea
¿Cuáles son algunos buenos recursos para aprender sobre análisis estadístico?

[1] minería de datos, inferencia y predicción. 2da edición. (descargar / comprar)
[2] Inferencia estadística: George Casella, Roger L. Berger: 9780534243128: Amazon.com: Libros
[3] Página de inicio del libro, “Análisis de datos bayesianos”
[4] Minería de conjuntos de datos masivos – The Stanford University InfoLab
[5] Todas las estadísticas: un curso conciso en inferencia estadística (Springer Texts in Statistics): Larry Wasserman: 9780387402727: Amazon.com: Libros

Para convertirse en un buen científico de datos, debe construir una base sólida en lo siguiente:

  • Estadísticas fundamentales (temas como estadística descriptiva e inferencial; pruebas paramétricas y no paramétricas, regresión simple y múltiple, etc.)
  • Competencia con al menos un lenguaje informático estadístico como R, SAS, STATA, etc. Los programadores de Python que han realizado análisis de datos también tienen una ventaja.
  • Buen conocimiento / experiencia con técnicas de modelado avanzadas, como análisis de series de tiempo, factorización matricial, modelos de efectos mixtos y técnicas de aprendizaje automático, como la estimulación y bosques aleatorios.
  • Pensamiento algorítmico: la capacidad de pensar y resolver problemas a un nivel de abstracción que está más allá de cualquier lenguaje de programación específico es muy útil.
  • Una comprensión de cómo funcionan las bases de datos relacionales. La experiencia SQL ayuda.
  • La experiencia con grandes conjuntos de datos y computación distribuida con Hadoop / Hive es una ventaja adicional si desea continuar sobresaliendo como científico de datos.

Algunos recursos en línea y moocs que pueden ayudarlo a comenzar son:

  1. Analista de datos (un buen lugar para tener una idea de los datos y la práctica)
  2. Gestión de Big Data con MySQL – Coursera (aprenda usando la relación DB en análisis de negocios)
  3. Aprendizaje automático práctico: Coursera (un manual para comenzar el aprendizaje automático de forma intuitiva)

Espero que esto ayude.

Hay muchos libros que se centrarán en las estadísticas, ya que se aplica a la ciencia de datos, sin embargo, creo que debe abordar las estadísticas de manera integral, y no solo en el marco de referencia de Data Science. Para eso, recomiendo el siguiente libro:

Estadísticas, 4a edición (9780393929720): David Freedman, Robert Pisani, Roger Purves

Este es el mismo libro (vagamente) seguido por Andrew Conway en su curso Coursera Statistics One. Intentaría encontrar la versión internacional, ya que son idénticas a las versiones de EE. UU., Pero se pueden obtener por alrededor de $ 30.

El primer capítulo o dos son bastante confusos, pero el resto del libro me parece muy bien presentado. Andrew Conway es muy conocedor de Estadística, y sin duda ha recomendado este libro por una buena razón.

Dicho esto, recomiendo no usar ningún recurso único. Las estadísticas son demasiado importantes para Data Science. Debes dominarlo, y como la mayoría de las cosas, ese es un trabajo constante en progreso. Soy adicto a las estadísticas, y creo que este libro es parcialmente culpable.

Estos son los pasos que estoy siguiendo en el orden particular:

  1. Estoy repasando la Academia Khan de Estadísticas de la Escuela Secundaria siguiendo este curso en la Academia Khan.
  2. De lado a lado me refiero a este curso https://www.udacity.com/course/i … en Udacity – Clases en línea gratuitas y nano grados
  3. Si programa en R, puede consultar las estadísticas del curso de este Coursera con R | Coursera
  4. Si desea leer un libro en particular, Think Bayes es el libro adecuado para usted que cubre Estadísticas con programación Think Bayes – Green Tea Press
  5. Si usted es un programador de R, consulte este libro Replanteamiento estadístico: un curso bayesiano con ejemplos en R o este https://cran.r-project.org/web/p
  6. Después de completar todos esos cursos si desea pasar al siguiente / nivel avanzado, entonces debe ir a estos cursos de Udacity. Introducción a la estadística descriptiva | Udacity y estadística inferencial: aprenda el análisis estadístico | Udacity

Después de hacer estas cosas, es bueno saltar al océano de Data Science. ¡Espero que ayude!

¿Qué tan bueno eres con los números? ¿Te apasionan las estadísticas? En caso afirmativo, bienvenido al nuevo orden de análisis. La estadística tiene un uso y una aplicación amplia y variada en investigación biomédica, economía, ciencias aplicadas, negocios (analista de negocios), mercados financieros y fijación de precios de valores. Representa el siguiente nivel después del procesamiento de datos.

Puede tomar cursos especializados en análisis de datos, investigación y estadísticas, cursos en línea de Udemy: aprenda cualquier cosa, según su horario o Coursera | Cursos en línea de las mejores universidades. Únete gratis . La belleza de estas plataformas es que ofrecen un esquema de curso bien estructurado para guiarlo a través de la curva de aprendizaje. En segundo lugar, como un fuerte complemento para comprender el curso, deberá equiparse con herramientas de software estadístico como STATA, IBM SPSS, Python y R y comenzar a pensar como tal. Piensa como un estadístico, sin las matemáticas.

Redfox Analytics

Saludos,

Inicialmente, uno tiene que decidir qué ruta tomar y por qué. Esto generalmente se responde en el primer capítulo de cualquier libro de texto que habla sobre la motivación del curso.

Si no tiene idea de lo que quiere hacer con las estadísticas, tome un curso introductorio de Estadística para ver cómo lo hace en él. Esto le dará una idea aproximada de cómo proceder después.

Si está muy decidido a ser un estadístico, entonces debe trabajar en los requisitos previos fundamentales, a saber, Análisis matemático y álgebra lineal. Estas 2 asignaturas constituyen el requisito previo para muchas otras asignaturas, a saber, economía.

Prerrequisitos
1) Análisis matemático por W. Rudin
2) Álgebra Lineal

Cursos de Estadística
1) Estadísticas inferenciales
2) Teoría de la probabilidad
3) Teoría de probabilidad avanzada (Requisito previo: Teoría de la medida)
4) métodos no paramétricos
5) Modelos lineales (requisitos previos: inferencia, probabilidad)
6) Análisis multivariante (requisitos previos: modelos lineales)
7) Procesos estocásticos (requisitos previos: probabilidad)

Estadísticas aplicadas

1) Diseño experimental
2) ensayos clínicos
3) Análisis de datos categóricos
4) Genética Estadística

Temas estadísticos avanzados

1) Estadísticas Bayesianas
2) Análisis de supervivencia
3) Teoría de la decisión
4) Análisis de datos longitudinales
5) Análisis de series temporales

Consulte también la herramienta estadística basada en la web, http://www.datainsight.in

Gracias por A2A,

Para empezar, me gustaría recomendar los siguientes dos libros. Ambos libros cubren conceptos básicos y son intuitivos.

  1. Introducción a la estadística
  2. Estadísticas de OpenIntro

Una vez que haya terminado con ellos, puede buscar libros más avanzados que traten temas específicos de estadística.

Creo que una de las mejores formas de aprender estadísticas para la ciencia de datos es aprender de los mejores.

Yo personalmente tenía antecedentes muy limitados en ciencia de datos y busqué toneladas de materiales y cursos en línea. Aquí hay algunos enlaces que creo que serán útiles:

Probabilidad y estadística para la ciencia de datos con R

Modelos de clasificación

Cómo aprender estadísticas para la ciencia de datos, la manera de iniciarse

Espero que estos ayuden.

En términos generales, hay ocho temas que debes dominar:

  • Estadística y teoría de la probabilidad
  • Distribuciones de probabilidad
  • Evaluación de la hipótesis
  • Modelado estadístico y ajuste
  • Aprendizaje automático
  • Análisis de regresión
  • Pensamiento y modelado bayesiano, y
  • Cadenas de Markov

Como recursos generales, me gustó Estadísticas y probabilidad | Khan Academy, pero dada su experiencia, supongo que esto podría ser superfluo. También esta explicación visual de las cadenas de Markov vale la pena: las cadenas de Markov explicadas visualmente. Para el aprendizaje automático, me gustó el libro de texto El arte y la ciencia de los algoritmos que tienen sentido de los datos y el aprendizaje automático. Consulte también la página de inicio del libro, “Análisis de datos bayesianos” (tiene demos de R, Python, Matlab y Octave).

Si desea revisar o consolidar su conocimiento de estadísticas, aquí hay algunas estadísticas de R para recursos de ciencia de datos:

  • Le recomiendo que consulte los libros de OpenIntro; Es realmente un gran recurso gratuito.
  • Consulte también cursos gratuitos como estos: Estadísticas básicas, que le presentan los conceptos básicos de estadísticas que necesita para hacer ciencia de datos. Aquí hay más cursos gratuitos: Cursos gratuitos de ciencia de datos y análisis | DataCamp.
  • También me gustó este recurso: Estadísticas de aprendizaje con R, que también cubre los conceptos básicos.

Si está buscando recursos de Python para aprender estadísticas de ciencia de datos, puede consultar esta lista: 40+ Estadísticas de Python para recursos de ciencia de datos

Escribo esta respuesta desde mi experiencia de aprendizaje y seguramente desde lo que aprendí de mis errores. Puede que no sean respuestas perfectas para ti, pero aquí está mi opinión:

Realmente depende de sus antecedentes e intereses. Soy de académicos, así que comencé a aprender de la teoría, pero es un camino lento. Recientemente leí una publicación de Jason Brownlee de su blog de maestría de aprendizaje automático donde sugirió un enfoque de arriba hacia abajo [Cómo los principiantes se equivocan en el aprendizaje automático: dominio del aprendizaje automático]. Te sugiero que te suscribas primero a algunos blogs, como puente analítico, vidhya analítico, central de ciencia de datos, maestría de aprendizaje automático, etc. Estos blogs te ayudarán a encontrar tu camino. Luego, elija un idioma primero (preferiblemente R o Python). Realice algunos cursos en línea de varios MOOC y comience a practicar los algoritmos en conjuntos de datos de juguetes.

Sugeriría la siguiente ruta:

Introducción a la ciencia de datos y el aprendizaje automático.

Modelos de regresión (aprenda las cuerdas de OLS, GLM, diagnóstico de modelos, análisis posterior a la estimación, métodos penalizados, re-muestreo, selección de variables, etc.)

Entonces, probablemente, algoritmos de clasificación como logística (y modelos probit, tobit), LDA, QDA, SVM, bosque aleatorio, árboles de decisión, etc.

Más tarde puede agregar otros algoritmos a medida que avanza …

Yo diría, primero master in y outs de al menos un algoritmo y comenzar a aplicarlo. Seguramente, necesita algunos antecedentes de matemáticas / estadísticas.

Como todos sabemos, las estadísticas se han convertido en componentes básicos de la ciencia de datos. Para ser un buen científico de datos y sobresalir en la carrera, uno debe tener un control de los conceptos básicos de estadística.

Ahora sobre cómo aprenderlo: si uno es de antecedentes estadísticos, es una caminata fácil para ellos. Pero aquellos que pertenecen a la ingeniería o los antecedentes no matemáticos tendrán que perseguir realmente y romper el iceberg.

Encontré este libro Introducción al aprendizaje estadístico muy útil, ya que yo también pertenezco a la formación en ingeniería y la demanda de mi rol me hizo aprenderlo.

Este libro lo ayudará a aprender conceptos básicos para avanzar en los algoritmos de aprendizaje automático y su implementación. Utiliza R como lenguaje.

En segundo lugar, si desea hacerlo rápido, tome algunos cursos en línea que pueden ayudarlo, pero tenga mucho cuidado al seleccionar el programa y asegúrese de que cumpla con sus requisitos.

En StepUp Analytics hemos comenzado un curso gratuito en línea sobre estadísticas para la ciencia de datos, es un entrenamiento en línea basado en un instructor, y lo estamos haciendo realmente bien. Las sesiones grabadas están disponibles en el canal de YouTube.

Regístrese para la sesión en vivo: Aprenda Introducción a las estadísticas para la ciencia de datos

Sigue aprendiendo y creciendo porque la ciencia de datos es la próxima gran cosa

Sajid

Aprendizaje colaborativo

Actualmente estoy leyendo Beautiful Data [1] y Beautiful Code [2]. Creo que vale la pena mirar libros como Peopleware [3] también.

Recomiendo echar un vistazo a la edición de octubre de Harvard Business Review [4]. Y me gustaría ampliar tu conocimiento del modelado matemático.

Otra pregunta que debe considerar es qué habilidades de software / programación debe adquirir con esto.

[1] Datos de Corpus en lenguaje natural: datos hermosos
[2] Código hermoso
[3] Peopleware, segunda edición
[4] Harvard Business Review, octubre de 2012.

Nate Silver’s
La señal y el ruido: por qué fallan tantas predicciones, pero algunas no

Si puede hacer lo que hizo (predecir los resultados electorales), lo habrá logrado y habrá logrado mucho.

Esta publicación es ORO. Leí las respuestas a continuación y me sorprendieron los métodos que la gente discutió.

Como graduado en ciencias de datos, encontré que los siguientes foros en línea fueron muy útiles. Encontré esta publicación que te dice los mejores libros para leer para un científico de datos. Enlazar

También creo que los cursos en Coursera, Udemy y edX son increíbles. Hay increíbles canales de youtube, repositorios de Kaggle y Github que puedes seguir para acelerar el proceso. Pero leer un libro es la mejor manera de hacerlo.

He estado practicando y enseñando epidemiología y bioestadística durante más de 35 años, y una de las lecciones claras que he aprendido es que las personas siguen formas muy diferentes de aprender. Las mentes ‘naturales’ raras y especiales parecen preformadas para comprender casi sin esfuerzo los conceptos y “formas” de la teoría de números y la estadística inferencial. Algunos aprenden visualmente, cómodos solo con diagramas y diagramas de flujo; otros a través de la discusión y la palabra hablada. A algunos les gusta la teoría y no tienen esperanza en la resolución práctica de problemas; otros realmente necesitan estudios de casos y ejemplos prácticos. Algunos experimentan grandes dificultades y confían en el aprendizaje de memoria de memoria, pero de repente “ven” – las ‘gotas de centavo’, y es maravilloso presenciar que esto suceda.
Pero mi consejo es leer, leer y leer un poco más, pero necesitarás ayuda para unir todo. No tienes que reinventar la rueda. Tome un curso, luego otro, y trabaje hacia su meta; Por lo general, es más fácil en un grupo con un buen instructor, y eso no necesariamente significa el que tiene la mayoría de los doctorados y la mayoría de las publicaciones, sino uno que puede comunicarse con sus alumnos y ayudarlos en sus diferentes necesidades.