ты ищешь нелинейную функцию с кучей параметров(deep learning), начинаешь со случайного приближения параметров(init), при этом используешь шумную(sgd) и смещённую(td loss) оценку целевой функции которую ты оцениваешь в матожидании по распределению, которое в свою очередь зависит от твоей нелинейной функции (см.выше).