Телеграмм чат группы natural_language

🔫 User кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@LoneGeek, @cypic, @Andrew_Valukhov, @Fushur, @stringersolo
При поддержке Золота Бородача

источник

04:06пожаловаться #7

Ruslan515 Y in Natural Language Processing

кто подскажет? https://www.tensorflow.org/text/tutorials/classify_text_with_bert использую эту статью для начала работы. создаю окружение и ставлю tf с помощью команды conda create -n tf-gpu tensorflow-gpu. tf.__version__ == 2.4.1. GPU при этом доступен. затем ставлю tensorflow-text и становиться tf.__version__ == 2.5 при этом GPU уже не доступен. что не так?

TensorFlow

Classify text with BERT | Text | TensorFlow

источник

06:58пожаловаться #8

Oleg Ruban in Natural Language Processing

Всем привет!

Ребята, подскажите, есть ли нейросеть, готовые библиотеки или прочие решения, которые позволяют исправлять пунктуацию (или с нуля расставлять в местах, где нет) в русскоязычном тексте (не только запятые)?

Недавно сталкивался с такой моделью: https://habr.com/ru/company/barsgroup/blog/563854/ но там она много весит и работает только с запятыми (и то не идеально). Есть ли аналоги получше?

Хабр

Нейрозапятые, или как мы оставили своих редакторов без работы (ну почти)

Всем привет, меня зовут Владислав Соболев – ML-инженер в компании “БАРС Груп”. Сегодня я хотел бы рассказать о том, зачем и как мы расставляем знаки препинания в...

источник

09:27пожаловаться #9

Sergey Shulga in Natural Language Processing

Поиск не пробовали по группе?

источник

09:33пожаловаться #10

Oleg Ruban in Natural Language Processing

https://github.com/vlomme/Bert-Russian-punctuation по поиску только на такую попадал, но по ней никакой информации о тестировании и показателях метрик точности нет, поэтому и интересуюсь у более опытных - есть ли ещё аналоги

GitHub

GitHub - vlomme/Bert-Russian-punctuation: Простая модель расстановки запятых на основе BERT

Простая модель расстановки запятых на основе BERT. Contribute to vlomme/Bert-Russian-punctuation development by creating an account on GitHub.

источник

09:37пожаловаться #11

КМ

Кибер Медик... in Natural Language Processing

Где-то с полгода назад тут спрашивал, мне скинули только Bert-Russian-punctuation. В публичном доступе пока получается только она и про которую я написал статью.

источник

10:12пожаловаться #12

Oleg Ruban in Natural Language Processing

жаль, направление нужное для многих NLP-шников хотя бы ради чистки данных перед обучением моделей

источник

11:03пожаловаться #13

Kutuz4 in Natural Language Processing

Товарищи, возможно вопрос не совсем по NLP, но кто-нибудь знает хорошие датасеты для lypsync? В открытом доступе

источник

11:58пожаловаться #14

КЗ

Катя Забабурина... in Natural Language Processing

всем привет! знает ли кто-нибудь адекватный способ разметки веса для слов оценочной лексики (желательно от -1 до 1, но не обязательно)?

источник

12:10пожаловаться #15

dePuff in Natural Language Processing

И когда через два часа зависимости разрулятся, выяснится, что четверть параметров в запинываемом коде deprecated, а другая четверть давным-давно deprecated

Это NLP

источник

12:45пожаловаться #16

Elena in Natural Language Processing

tensorflow не так :)

источник

12:46пожаловаться #17

Nikolay V. Shmyrev in Natural Language Processing

https://www.robots.ox.ac.uk/~vgg/data/lip_reading/

источник

12:51пожаловаться #18

Nikolay V. Shmyrev in Natural Language Processing

Это tensorflow. Ещё с переходом с 0.8 на 1.0 такая ерунда была, 4 года назад. С тех пор ничего не изменилось.

источник

12:53пожаловаться #19

🐙

🐙 in Natural Language Processing

Ребят, подскажите по gensim: натравливаю LDA модельку на корпус из несколько сотен текстов, ставлю количество тем равным количеству текстов (предполагаем что все тексты на разную тему). Вопрос такой: когда вывожу на печать темы, там есть индекс темы + слова темы с весами, и вот этот идекс темы - можно считать его привязанным к тексту (скажем, текст 5 - и индекс темы тоже 5) или они случайно генерируются?

Опытным путём выяснил, что скорее случайные.

источник

12:53пожаловаться #20