Cómo aprender ciencia de datos usando python

¿Por qué Python para el análisis de datos?

  • Para algunas personas, Python es muy amigable y un lenguaje muy fácil de enamorarse. Python apareció por primera vez en 1991, Python ahora es uno de los lenguajes dinámicos populares de programación, junto con otros lenguajes como Perl, Ruby y otros lenguajes.
  • Python y Ruby fueron especialmente populares en los últimos años por crear sitios web utilizando sus marcos web, como Rails (Ruby) y Django (Python). Estos tipos de lenguajes a menudo se conocen como “lenguajes de secuencias de comandos”, ya que pueden usarse para programar programas rápidos o las secuencias de comandos. Entre todos los lenguajes, Python se usa ampliamente cuando hablamos de “análisis de datos”.
  • Python se está adoptando para la informática científica en la investigación académica y las aplicaciones de la industria desde la década de 2000 para el análisis de datos y la computación exploratoria e interactiva y la visualización de datos, Python establecerá una comparación con otros lenguajes de programación como MATLAB, R, SAS, etc. En los últimos años , Python tiene una fuerte alternativa para las tareas de manipulación de datos debido a la mejora de la compatibilidad con lib de Python. La fuerza de Python + programación de uso general Python es el mejor lenguaje para aplicaciones centradas en datos.

¿Por qué no Python?

Hay varios usos donde Python no es tan adecuado como debería ser.

1) El código de Python se ejecutará considerablemente más lento que el código escrito en los lenguajes como Java o C ++, que son lenguajes compilados, mientras que Python es lenguaje interpretado.

2) Python tampoco es un lenguaje perfecto para aplicaciones altamente concurrentes y multiproceso debido a su mecanismo GIL (bloqueo de intérprete global) que impide que el intérprete ejecute más de un código de bytes de Python por un tiempo.

Tipos de datos en Python

Ecosistema de Python

Bibliotecas esenciales de Python

Para aquellos principiantes que no están familiarizados con el ecosistema principal de Python, aquí hay algunas bibliotecas y sus descripciones generales:

  1. NumPy

Python numérico es el paquete de computación científica en Python. Proporciona las siguientes otras cosas:

• Un objeto de matriz multidimensional rápido y eficiente ” ndarray” .

• El paquete tiene las funciones para cálculos de elementos de arreglos y operaciones matemáticas entre dos arreglos diferentes.

• Tiene conjuntos de datos de lectura y escritura basados ​​en matrices en las herramientas de memoria.

• se pueden realizar operaciones relacionadas con álgebra, transformada de Fourier, etc.

• C, C ++ y código Fortran para Python conectando e integrando herramientas.

En el análisis de datos es el contenedor primario para que los datos que se analicen se pasen entre algoritmos, la matriz de Numpy es mucho más eficiente que otras estructuras de Python para almacenar y manipular datos numéricos.

2. Pandas

Tiene la estructura y las funciones diseñadas para hacer que el trabajo con datos estructurados sea rápido, eficiente y fácil, el objeto principal de los pandas es el “DataFrame”, es una estructura de datos tabular bidimensional con filas y columnas.

Los pandas se pueden combinar con numpy para usar su potencia de cálculo con las hojas de cálculo y las bases de datos relacionales de panda como SQL. Es la herramienta principal utilizada para moldear y modificar los datos también para encontrar la agregación, seleccionar subconjuntos de datos.

3. Matplotlib

Generalmente se usa para la visualización de datos, como la configuración de gráficos o la vista de datos 2D. Se combina con ipython para proporcionar el entorno de trazado y exploración de datos. Las tramas son “interactivas”.

4. IPython

Es la herramienta científica estándar de un pitón que une todo. Proporciona el entorno para la computación productiva y exploratoria de los datos. Es un shell diseñado para acelerar la escritura y depuración de códigos escritos en python. Puede conectar ipython con el navegador web, tiene la infraestructura que puede soportar computación paralela y distribuida.

5. SciPy

Tiene los paquetes incluidos y debajo están los paquetes incluidos.

Instalación y configuración

Recomiendo usar una de las siguientes distribuciones básicas de Python:

1) Distribución de Enthought Python : puede descargar desde https://store.enthought.com/down…

2) Python (x, y) : una distribución gratuita de Python con orientación científica para Windows.

https://python-xy.github.io/down…

Usaré EPD gratis.

Ventanas

1) Descargue el instalador y ejecute y acepte la ruta de instalación predeterminada en el instalador ( C: \ Python27). Si ya lo instaló allí, bórrelo y vuelva a instalarlo allí.

2) Verifique que Python se haya agregado correctamente a la ruta del sistema y que no haya errores o problemas con él.

1. Abra el símbolo del sistema.

2. Escriba “python” y obtendrá el mensaje que coincide con el intérprete EPD.

3) Una vez que haya lanzado Python, necesita instalar los pandas.

Descargar: – http://pypi.python.org/pypi/pandas

Y siga los siguientes pasos:

El cuaderno Ipython HTML puede ser ejecutado por

1) Puede encontrar el paquete necesario de Windows en https://www.lfd.uci.edu/~gohlke/…

Configuración del entorno de análisis de datos de Python en Ubuntu.

Esto configurará el entorno de Python en tu Ubuntu.

Al final

En resumen, aquí es cómo puede comenzar a aprender la ciencia de datos con Python.

Conclusión

Las personas a menudo cometen errores al aprender Python de que intentan aprender todas las bibliotecas a la vez, pero debe dar a cada biblioteca su propio tiempo por separado, esto lo hará aprender más rápido y eficazmente.

Tome clases de capacitación en línea para aprender ciencia de datos con Python

Así es como puedes ir:

  • El primer paso es aprender los conceptos básicos de Python , entender los conceptos básicos es lo más importante.
  • El segundo paso es aprender Numpy y luego proceder a Pandas y luego los dos aprenden Matplotlib .
  • Puede encontrar los tutoriales para lo anterior en línea o también puede optar por algunos cursos en línea.

¿Tiene usted alguna pregunta?

Espero que esto te ayude. Si aún desea orientación o apoyo, puede enviarme un mensaje. Te ayudaré con tus dudas.

¡Todo lo mejor!

Si quieres profundizar en el aprendizaje automático con muchas matemáticas, hay conferencias gratuitas de aprendizaje automático famosas por Andrew Ng

También marqué una pregunta de quora donde había una buena lista de tuts de aprendizaje automático paso a paso.

Si solo quiere comenzar con la codificación, aquí está mi sitio web de libros electrónicos de codificación favorito Ebooks & Elearning For Programming, encontrará los mejores libros con python con ML, jupyter y R.

Hay libros muy bonitos disponibles que puede encontrar en http://www.it-eBook.info y muchos tutoriales en video también disponibles en Udacity, edX.