[MUSIC] Bienvenidos. En este video vamos a ver una variante sobre el algoritmo gradient descent. En el cual, nosotros, en vez de actualizar nuestros pesos basados en el último gradiente. Vamos a tomar lo que vimos las clases pasadas sobre medias exponenciales. Y vamos a reemplazar el valor del gradiente por su media exponencial. Esta técnica, o modificación al algoritmo gradient descent se llama momentum, o inercia. Y la intuición que tiene es bastante lógica. Imaginémonos estos contornos de una función de pérdida que queremos optimizar, donde esto va en descenso hacia el centro. Y el óptimo está en algún lugar de este centro. El algoritmo gradient descent, en este caso, tomaría este camino así medio sinuoso. Y eso nos impide, en realidad, tener una tasa de aprendizaje, o un ratio de aprendizaje un poco más alto. Porque si lo tuviésemos, nos podría pasar que nos pasáramos, o nos fuéramos muy lejos del camino correcto. Y esos productos, en realidad, nosotros quisiéramos tener dos ratios de aprendizaje en este caso. O quisiéramos que fuera distinto. Si vemos esta diagonal, por ejemplo, en este sentido. Quisiéramos tener una tasa de entrenamiento grande, porque es bastante descendente este sentido. Pero en este otro sentido, en el perpendicular a ese, quisiéramos tener una tasa bastante más chica. Porque es como un cañón bastante cerrado este, y cualquier movimiento brusco que hago me voy para arriba. Es por eso que la lógica de esta técnica de momentum, o inercia, nos hace pensar en una media. O sea, de tomar todos los gradientes, y tratar de ir por el promedio de ellos, por el camino medio que marca esta sinuosidad. Y en ese camino, yo puede ser una tasa de entrenamiento mucho más grande, porque es mucho más estable y mucho más suave. ¿Cómo es que implementamos esto? La realidad es que, en base a lo que vimos en clases pasadas sobre medias exponenciales, no es muy complejo en términos matemáticos. Donde yo antes actualizaba w menos la tasa de entrenamiento por la derivada de la función de costos beta w. Ahora lo voy a modificar por un valor testigo, un b(w). Que es, el b(w) de la iteración anterior por un beta por 1- beta. El diferencial de la función de costo respecto a w de esta iteración. Que es, en esencia, la media exponencial que vimos antes. Esto que pasa nos agrega un parámetro más, que es beta, que es este parámetro de la media exponencial que tenemos que elegir. Pero este parámetro, normalmente, es un valor que se suele poner cerca de 0,9, y es un valor que funciona bastante bien en ese rango. Hemos visto, entonces, que con una pequeña modificación al algoritmo gradient descent muy sencilla. Se puede lograr este tipo de trayectorias más estables en el algoritmo de optimización. Y eso conlleva a que, por suerte podamos entrenar nuestras redes neuronales de una manera más rápida. Y con tasas de aprendizaje un poquito más altas, que autorizan una convergencia más acelerada. [MUSIC]