Заморозка слоёв нужна в двух случаях:
1) Чтобы обучаться побыстрее, т.к. меньше градиентов нужно вычислять
2) Чтобы меньше переобучаться:
2.1. Если обучающая выборка очень маленькая, и потому об неё переобучиться легко
2.2. Если планируется domain shift, например, мультиязычный BERT файн-тюнится на английских данных, а применять его хочется и на других языках.