¿Cuáles son algunos libros que cubren los conceptos básicos del descenso gradual y son fáciles para un principiante en Machine Learning?

Hola, si estás interesado en el algoritmo básico, no necesitas ningún libro, es solo Análisis matemático básico (cálculo):

GD es un algoritmo general para encontrar un mínimo local de una función.

El GD clásico (con tamaño de paso fijo) se basa en dos hechos:

1) Siempre puede calcular el gradiente de una función en un punto (suponiendo que exista), ya sea calculando analíticamente (diferenciación) o utilizando aproximaciones bien conocidas (diferenciación numérica).
El gradiente en un punto es solo un número (o un vector en caso de función multivariante)

2) Si te mueves (desde un punto en el que te encuentras) en la dirección opuesta al gradiente de la función, te estás moviendo hacia el mínimo de esta función.

Por lo tanto, el GD clásico alterna entre dos pasos:
1) Gradiente de computación en un punto
2) Moviéndose desde este punto en la dirección opuesta al gradiente en este punto.

Ahora, desde el primer año de cálculo, el gradiente es cero en un mínimo local, por lo que eventualmente, si seleccionamos un tamaño de paso lo suficientemente pequeño (un multiplicador utilizado para definir qué tan lejos en la dirección del gradiente nos estamos moviendo) llegaremos al punto ya no podemos movernos [el gradiente será casi cero]. Este punto es tu mínimo local.