Но чинить самописные сервисы от утечек все таки проще. И из языка все доступно, и тулинг наверняка есть (я не настоящий плюсовик, но за столько лет я уверен что придумали что-то чтобы подебажить этот кейс)
Тут пожалуй про все в целом. По моим наблюдениям, оно всегда утекало на стыке между питоном и экстеншеном (или внутри экстеншена). То есть питоновый код выглядит как будто нормально, а оно течет (хотя питон сам по себе течь не должен).
Это субъективная боль. Я натыкался пару раз как раз в ML, потыкался, понял что надо расчехлять дебагер и вот это все, понял что это несколько не моя работа и написал разрабу:)
Инференс можно сделать, например, переведя модель в onnx, как вариант для ускорения тоже подходит, а вот экспериментировать и учить на плюсах, я думаю, дата-сатанисты откажутся
Кажется с плюсами оно должно работать сильно лучше. По крайней мере официальная документация прямо говорит и пишет о том, что "да, оно будет работать" и достаточно подробна на первый взгляд, видно что оно не сбоку прилеплено.
This means you can define your models in Python as much as possible, but subsequently export them via TorchScript for doing no-Python execution in production or embedded environments.