Size: a a a

Natural Language Processing

2021 June 27

B

Banof in Natural Language Processing
🔫 @UnrootedPastis кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@Nikitini, @Fbuzaev, @binariodue, @winwim, @gernar
При поддержке Золота Бородача
источник
2021 June 28

DD

David Dale in Natural Language Processing
Написал пост про свой синтетический датасет с миллионом парафраз, про обзор других датасетов и моделей для перефразирования и метрики их качества.
Если полайкаете его на Хабре, буду благодарен) https://habr.com/ru/post/564916/
источник

АЖ

Антон Жиянов... in Natural Language Processing
Спасибо, очень интересно! Отдельное спасибо, что ставите ссылки на другие исследования, модели итп
источник

FF

Futorio Franklin in Natural Language Processing
Как простая идея, можно использовать этот датасет для триплетлосса в обучении?
источник

АЖ

Антон Жиянов... in Natural Language Processing
Пугает только, что будет, когда копеечные копирайтеры осилят нейросети для рерайта. От него и так не продохнуть в рунете
источник

DD

David Dale in Natural Language Processing
Да, я сам собираюсь детектор парафраз на нём обучить)
За счёт большого размера, вроде как из него можно насэмплировать довольно сложные негативы.
источник

FF

Futorio Franklin in Natural Language Processing
А как датасет для дистилляции у него может быть потенциал?
источник

DD

David Dale in Natural Language Processing
Если честно, я верю, что нейросеть может генерировать менее клишированные и душные тексты, чем копеечный копирайтер. Поэтому, раз уж интернет и так по горло в рерайте, мы можем попытаться хотя бы сделать его чуть более качественным)
источник

DD

David Dale in Natural Language Processing
Наверное да, зависит от того, как поставить задачу)
источник

АЖ

Антон Жиянов... in Natural Language Processing
Ну тоже верно 😁 Хотя я больше верю в автоопределение рерайта с понижением в выдаче. Странно, что яндекс ещё этого не делает
источник

МА

Михаил Акулов... in Natural Language Processing
Здравствуйте! Продолжая тему SpaCy и деревьев зависимости. А можно ли с помощью матчера искать поддеревья с конкретными POS-тегами вместо последовательности в предложении, или в любом случае придётся делать обход дерева ручками?
источник

DD

David Dale in Natural Language Processing
Ну может быть и делает, мы-то вряд ли наверняка можем знать)
источник

МА

Михаил Акулов... in Natural Language Processing
Нашёл; скорее всего, мне нужен DependencyMatcher :)
источник

🐙

🐙 in Natural Language Processing
Как раз искал ровно то же, о чем вы спросили. Спасибо 👍
источник

SP

Sebastian Pereira in Natural Language Processing
Мы уже осилили, сделали такую систему для одних ребят для английского.
источник

SP

Sebastian Pereira in Natural Language Processing
Все так. Все что касается "обзоров", "сводок" модели сейчас делают быстрее и дешевле людей. И объективней, потому что можно примитивный факт-чекинг провести.
источник

SP

Sebastian Pereira in Natural Language Processing
Это никому не нужно, насколько я понял.
источник

d

dePuff in Natural Language Processing
Я как раз сейчас играюсь с t5 и данным датасетом

Есть вопрос: а сколько примерно эпох длился файнтюнинг
источник

DD

David Dale in Natural Language Processing
Конкретно у меня эпохи довольно сложно представимы, т.к. я обучал на нескольких датасетах в разной пропорции, и в итоге мой новый корпус модель увидела раза три, а opusparcus даже меньше чем один раз целиком.
источник

🐙

🐙 in Natural Language Processing
Ребят, как правильно сформулировать смысл большого tfidf у токена? Это говорит о том, что он редкий? значимый? специфичный?
источник