Hola, si estás interesado en el algoritmo básico, no necesitas ningún libro, es solo Análisis matemático básico (cálculo):
GD es un algoritmo general para encontrar un mínimo local de una función.
El GD clásico (con tamaño de paso fijo) se basa en dos hechos:
1) Siempre puede calcular el gradiente de una función en un punto (suponiendo que exista), ya sea calculando analíticamente (diferenciación) o utilizando aproximaciones bien conocidas (diferenciación numérica).
El gradiente en un punto es solo un número (o un vector en caso de función multivariante)
- ¿Dónde puedo buscar buenos libros de cualquier género y echar un vistazo al asunto antes de comprarlo?
- ¿Cuáles son algunos buenos libros sobre escritura de comedia?
- ¿Cuáles son algunas citas de Scout de To Kill A Mockingbird?
- ¿Cuáles son algunas buenas biografías de personas cuyos padres murieron temprano?
- ¿Cuáles son algunos de los mejores libros de informática que son matemáticamente rigurosos?
2) Si te mueves (desde un punto en el que te encuentras) en la dirección opuesta al gradiente de la función, te estás moviendo hacia el mínimo de esta función.
Por lo tanto, el GD clásico alterna entre dos pasos:
1) Gradiente de computación en un punto
2) Moviéndose desde este punto en la dirección opuesta al gradiente en este punto.
Ahora, desde el primer año de cálculo, el gradiente es cero en un mínimo local, por lo que eventualmente, si seleccionamos un tamaño de paso lo suficientemente pequeño (un multiplicador utilizado para definir qué tan lejos en la dirección del gradiente nos estamos moviendo) llegaremos al punto ya no podemos movernos [el gradiente será casi cero]. Este punto es tu mínimo local.