Так зависит от того, что именно ты тестируешь. Люди придумали для работы с докером:
Разные job в CI.
Разные docker-compose файлы
Разные аргументы
Все это может давать тебе 100500 реализаций. А дальше уже тесты работают изолированно, без понимания того как инфра устроена (как и должно быть)