Ну, мне казалось, что при forward-режиме сетка не так уж долго работать должна. Умножать матрички да свертки делать.
Я ожидал замедления, но не настолько: на GPU 1070 (да, другая карточка) тестовый датасет обрабатывается 143 секунды, а на моем CPU за час с лишним обрабатывается порядка 5% датасета.