Написал пост про свой синтетический датасет с миллионом парафраз, про обзор других датасетов и моделей для перефразирования и метрики их качества. Если полайкаете его на Хабре, буду благодарен) https://habr.com/ru/post/564916/
Если честно, я верю, что нейросеть может генерировать менее клишированные и душные тексты, чем копеечный копирайтер. Поэтому, раз уж интернет и так по горло в рерайте, мы можем попытаться хотя бы сделать его чуть более качественным)
Здравствуйте! Продолжая тему SpaCy и деревьев зависимости. А можно ли с помощью матчера искать поддеревья с конкретными POS-тегами вместо последовательности в предложении, или в любом случае придётся делать обход дерева ручками?
Все так. Все что касается "обзоров", "сводок" модели сейчас делают быстрее и дешевле людей. И объективней, потому что можно примитивный факт-чекинг провести.
Конкретно у меня эпохи довольно сложно представимы, т.к. я обучал на нескольких датасетах в разной пропорции, и в итоге мой новый корпус модель увидела раза три, а opusparcus даже меньше чем один раз целиком.