Телеграмм чат группы natural_language

2021 February 11

SK

Sasha Korovii in Natural Language Processing

Борис Добров

И будет ли обоснованием использовать bert при росте 5%

хочу попробовать, пока время и ресурсы есть.

источник

19:08пожаловаться #1

SK

Sasha Korovii in Natural Language Processing

И еще такой вопрос, а кто делал тональность для новости в зависимости от слова, например в какой-то новости упоминается персона, новость позитивная, а упоминания про персону нейтральное

источник

19:11пожаловаться #2

БД

Борис Добров... in Natural Language Processing

А ха ха , там все еще сложнее, stance, bias, контекст...
Пока только скребут пр поверхеости.
Можно забить, обычнл для источника все стандартно, можно пытаться стабилизировать средним.
Если ошибки важны, нужен редактор.

Обрабатывется 100 тысяч новостей в день, а на морду или в справку идет 100.

источник

19:21пожаловаться #3

БД

Борис Добров... in Natural Language Processing

Ксати высокий accuracy по чему то типа rouge , гоаорит о том что примеры близки к leed.
В такой постановке задача почти вырожденная.

источник

19:24пожаловаться #4

YB

Yuri Baburov in Natural Language Processing

Mustfix:
https://github.com/dialogue-evaluation/GramEval2020/issues/29

GitHub

Fix train-dev overlap in poetry dataset · Issue #29 · dialogue-evaluation/GramEval2020

train_GramEval2020-Taiga-poetry-train-fixed.conllu.zip

источник

21:21пожаловаться #5

AZ

Alina Zhiltsova in Natural Language Processing

Всем привет! Скажите, можно ли кому-то в личку задать вопросы по экспорту pytorch модели из azure ml? Пользуюсь платформой совсем недавно, запуталась)

источник

21:40пожаловаться #6

2021 February 12

YB

Yuri Baburov in Natural Language Processing

Alexander Kukushkin

Всем привет! Наш семинар возобновляет вещание. Приглашаем вас в четверг, 11 февраля, в 19-00.

Тема: "Spacy для NLP: прошлое, настоящее, будущее".

Докладчик:
Юрий Бабуров, CTO в компании ApRbot (обработка неструктурированных документов), создатель библиотек spaCy-Ru, python-readability и соавтор крупнейшего корпуса русской речи OpenSTT, преподаватель курса по нейросетям в магистратуре НГУ, соавтор курса https://dlcourse.ai

Аннотация: Spacy для NLP: прошлое, настоящее, будущее.
Расскажу про задачи, которые решает пакет Spacy,
и про то, как он это делает. Морфология и лемматизация, NER,
синтаксический анализ, классификация. SOTA или скорость.

Семинар пройдет в онлайн-формате.

Ссылка на регистрацию

(!) Алгоритм регистрации: надо заполнить форму, ближе к семинару вам придет письмо с ссылкой на zoom и паролем.

cs.hse.ru

Онлайн-семинар НУЛ ММВП "Spacy для NLP: прошлое, настоящее, будущее"

11 февраля 2021 года состоится семинар Научно-учебной лаборатории моделей и методов вычислительной прагматики.

Запись опубликована: https://youtu.be/8nTXED4R5T4 : Spacy и Spacy Ru : прошлое, настоящее, будущее.

YouTube

1102

RuSpaCy, Yuri Baburov

источник

18:21пожаловаться #7

YB

Yuri Baburov in Natural Language Processing

Yuri Baburov

Запись опубликована: https://youtu.be/8nTXED4R5T4 : Spacy и Spacy Ru : прошлое, настоящее, будущее.

YouTube

1102

RuSpaCy, Yuri Baburov

Если кому нужна табличка по моделям spacy ru, упоминаемая в конце доклада: https://docs.google.com/spreadsheets/u/0/d/1laE3m3KmNlNk6HN3dC63IOs6aB8qyGnqusc1wX2SGdQ/edit

Google Docs

SpaCy Ru

Все

DEP SCORE,87,2,88,6,83,9,85,2,85,8,85,9,85,8,87,1,87,0,87,3,85,5,87,1
SCORE,81,7,82,3,82,3,83,0,83,4,83,7,84,8,85,8,86,6,83,9,85,1,85,4,85,7,85,9,86,7,86,8,87,0,85,4,87,2
BIASED,82,7,84,5,84,3,85,3,85,5,85,7,86,6,88,0,89,2,85,7,86,8,87,2,87,3,87,3,88,3,88,2,88,5,87,1,88,3
WIDTH,96,48,96,150,192

источник

18:28пожаловаться #8

➔m

➔◾ maria myznikova... in Natural Language Processing

Yuri Baburov

Если кому нужна табличка по моделям spacy ru, упоминаемая в конце доклада: https://docs.google.com/spreadsheets/u/0/d/1laE3m3KmNlNk6HN3dC63IOs6aB8qyGnqusc1wX2SGdQ/edit

Google Docs

SpaCy Ru

Все

DEP SCORE,87,2,88,6,83,9,85,2,85,8,85,9,85,8,87,1,87,0,87,3,85,5,87,1
SCORE,81,7,82,3,82,3,83,0,83,4,83,7,84,8,85,8,86,6,83,9,85,1,85,4,85,7,85,9,86,7,86,8,87,0,85,4,87,2
BIASED,82,7,84,5,84,3,85,3,85,5,85,7,86,6,88,0,89,2,85,7,86,8,87,2,87,3,87,3,88,3,88,2,88,5,87,1,88,3
WIDTH,96,48,96,150,192

Спасибо вам большое.

источник

18:28пожаловаться #9

VS

Vitalii Smirnov in Natural Language Processing

Добрый день! Есть фанаты Protege ? С кем можно пообщаться?

источник

19:30пожаловаться #10

AC

Alexander C in Natural Language Processing

Может кто-то знает, можно ли в protege конвертировать individuals to classes?

источник

20:33пожаловаться #11

AC

Alexander C in Natural Language Processing

Переслано от Gleb Arshanov

Нет, нельзя

источник

20:33пожаловаться #12

AC

Alexander C in Natural Language Processing

Vitalii Smirnov

Добрый день! Есть фанаты Protege ? С кем можно пообщаться?

Тот который для kg ? Тут у нас обсуждали @kg_course . Или это другое ?

источник

20:34пожаловаться #13

VS

Vitalii Smirnov in Natural Language Processing

да да. это. сейчас буду смотреть. спасибо

источник

20:35пожаловаться #14

2021 February 13

МП

Михаил Притугин... in Natural Language Processing

Всем привет!
Подскажите, может у кого был опыт.
Тыкаю bigartm. Как там можно задать заранее какие-то темы?
Как Seeded lda (где мы проставляем ключевые слова темы), но желательно просто подать на модель размеченные тексты заранее определенных тем, и все остальные тексты.

источник

15:48пожаловаться #15

МП

Михаил Притугин... in Natural Language Processing

То есть, если говорить более научно, как задать семантические ядра тем если есть разметка этих текстов.

источник

15:50пожаловаться #16

KK

Krep Kospit in Natural Language Processing

Доброй ночи! Подскажите нубу: вот у меня есть в txt некоторое количество книг, и я хочу создать из них датасет для задачи "моделирования языка". Правильно я понимаю, что нужно сперва нужно перевести тексты в таблицу вида "предложение1":"предложение2", притом, чтобы их длины были одинаковы? А потом уже в с помощью torchtext и spacy создать датасет для загрузки в какую-нибудь сетку типа трансформера?

источник

22:08пожаловаться #17

2021 February 14

d

dePuff in Natural Language Processing

Krep Kospit

Доброй ночи! Подскажите нубу: вот у меня есть в txt некоторое количество книг, и я хочу создать из них датасет для задачи "моделирования языка". Правильно я понимаю, что нужно сперва нужно перевести тексты в таблицу вида "предложение1":"предложение2", притом, чтобы их длины были одинаковы? А потом уже в с помощью torchtext и spacy создать датасет для загрузки в какую-нибудь сетку типа трансформера?

Не знаю зачем там одинаковые длины (padding батча в loader можно организовать), но getitem от torch.utils.data.Dataset вполне можно научить выдавать два последовательных элемента из списка )

Torchtext это бесполезная боль, imho

Так, что

from torch.utils.data import Dataset, DataLoader

И вперёд

источник

12:20пожаловаться #18

KK

Krep Kospit in Natural Language Processing

dePuff

Не знаю зачем там одинаковые длины (padding батча в loader можно организовать), но getitem от torch.utils.data.Dataset вполне можно научить выдавать два последовательных элемента из списка )

Torchtext это бесполезная боль, imho

Так, что

from torch.utils.data import Dataset, DataLoader

И вперёд

Спасибо за ответ! А что не так с torchtext? Видел примеры, где с его помощью из csv или json делали загрузчики данных.

источник

16:08пожаловаться #19

d

dePuff in Natural Language Processing

Krep Kospit

Спасибо за ответ! А что не так с torchtext? Видел примеры, где с его помощью из csv или json делали загрузчики данных.

Я бы поставил вопрос как: а что с ним вообще так?

Это конечно классно вызывать

build_vocabulary

над

Field

(мог ошибиться с названием метода), только потом узнаёшь, что этот метод тебе не нужен, возможностей Field тебе мало, а то что тебе нужно очень уродливо реализовывать посредством torchtext

источник

16:16пожаловаться #20