Телеграмм чат группы natural_language_processing страница 1283

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 June 27

B

Banof in Natural Language Processing

🔫 @UnrootedPastis кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@Nikitini, @Fbuzaev, @binariodue, @winwim, @gernar
При поддержке Золота Бородача

источник

02:21пожаловаться #1

2021 June 28

DD

David Dale in Natural Language Processing

Написал пост про свой синтетический датасет с миллионом парафраз, про обзор других датасетов и моделей для перефразирования и метрики их качества.
Если полайкаете его на Хабре, буду благодарен) https://habr.com/ru/post/564916/

Перефразирование русских текстов: корпуса, модели, метрики

ВведениеРусский язык велик и могуч, и компьютерные лингвисты уже много лет пытаются алгоритмизировать это богатство. Ещё в 1970-х Мельчук предложил концепцию "См...

источник

12:49пожаловаться #2

АЖ

Антон Жиянов... in Natural Language Processing

Спасибо, очень интересно! Отдельное спасибо, что ставите ссылки на другие исследования, модели итп

источник

12:58пожаловаться #3

FF

Futorio Franklin in Natural Language Processing

Как простая идея, можно использовать этот датасет для триплетлосса в обучении?

источник

13:00пожаловаться #4

АЖ

Антон Жиянов... in Natural Language Processing

Пугает только, что будет, когда копеечные копирайтеры осилят нейросети для рерайта. От него и так не продохнуть в рунете

источник

13:00пожаловаться #5

DD

David Dale in Natural Language Processing

Да, я сам собираюсь детектор парафраз на нём обучить)
За счёт большого размера, вроде как из него можно насэмплировать довольно сложные негативы.

источник

13:02пожаловаться #6

FF

Futorio Franklin in Natural Language Processing

А как датасет для дистилляции у него может быть потенциал?

источник

13:02пожаловаться #7

DD

David Dale in Natural Language Processing

Если честно, я верю, что нейросеть может генерировать менее клишированные и душные тексты, чем копеечный копирайтер. Поэтому, раз уж интернет и так по горло в рерайте, мы можем попытаться хотя бы сделать его чуть более качественным)

источник

13:04пожаловаться #8

DD

David Dale in Natural Language Processing

Наверное да, зависит от того, как поставить задачу)

источник

13:04пожаловаться #9

АЖ

Антон Жиянов... in Natural Language Processing

Ну тоже верно 😁 Хотя я больше верю в автоопределение рерайта с понижением в выдаче. Странно, что яндекс ещё этого не делает

источник

13:06пожаловаться #10

МА

Михаил Акулов... in Natural Language Processing

Здравствуйте! Продолжая тему SpaCy и деревьев зависимости. А можно ли с помощью матчера искать поддеревья с конкретными POS-тегами вместо последовательности в предложении, или в любом случае придётся делать обход дерева ручками?

источник

13:08пожаловаться #11

DD

David Dale in Natural Language Processing

Ну может быть и делает, мы-то вряд ли наверняка можем знать)

источник

13:13пожаловаться #12

МА

Михаил Акулов... in Natural Language Processing

Нашёл; скорее всего, мне нужен DependencyMatcher :)

источник

13:15пожаловаться #13

🐙

🐙 in Natural Language Processing

Как раз искал ровно то же, о чем вы спросили. Спасибо 👍

источник

13:16пожаловаться #14

SP

Sebastian Pereira in Natural Language Processing

Мы уже осилили, сделали такую систему для одних ребят для английского.

источник

13:23пожаловаться #15

SP

Sebastian Pereira in Natural Language Processing

Все так. Все что касается "обзоров", "сводок" модели сейчас делают быстрее и дешевле людей. И объективней, потому что можно примитивный факт-чекинг провести.

источник

13:24пожаловаться #16

SP

Sebastian Pereira in Natural Language Processing

Это никому не нужно, насколько я понял.

источник

13:25пожаловаться #17

d

dePuff in Natural Language Processing

Я как раз сейчас играюсь с t5 и данным датасетом

Есть вопрос: а сколько примерно эпох длился файнтюнинг

источник

14:04пожаловаться #18

DD

David Dale in Natural Language Processing

Конкретно у меня эпохи довольно сложно представимы, т.к. я обучал на нескольких датасетах в разной пропорции, и в итоге мой новый корпус модель увидела раза три, а opusparcus даже меньше чем один раз целиком.

источник

14:07пожаловаться #19

🐙

🐙 in Natural Language Processing

Ребят, как правильно сформулировать смысл большого tfidf у токена? Это говорит о том, что он редкий? значимый? специфичный?

источник

20:26пожаловаться #20