Сделать надо так, чтобы потом эта штука стояла и работала без вмешательства
Пишешь на питоне и tensorflow, тестируешь там же, перед раскаткой в прод конвертишь в tensorrt и понали. Если вюдюхи нет или она не очень новая, то просто tf-модель в прод, все равно она компилится в бинарь и на проде код от плюсового не отличим. Можно в связке с tensorflow-serving. Если же хочешь ускорять обучение и чувствуешь, что сможешь это сделать, то pytorch в виде пинонячьей части + ATEN в качестве плюсовой только на уровне вычислений (можно и кастомное cuda-kernel сюда прикрутить, в принципе). Если пишешь на pytorch, то torch.jit.trace и тоже норм, но можно и гнать в tensorrt.