Телеграмм чат группы natural_language_processing страница 873

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2186 membersпожаловаться на группу

2020 October 18

ДА

Дмитрий Абвгд... in Natural Language Processing

имеет место простая замена на смысловые признаки?

продам 1к.кв. м.московская ул. ленина 32 9200000 5этаж 5этажного 54м2 без отделки, вид на парк. жк Минестерские Высоты проходит ипотека сбера

источник

10:39пожаловаться #1

ДА

Дмитрий Абвгд... in Natural Language Processing

разбить сначала на триграммы:
высоты проходит ипотека => NULL
проходит ипотека сбера => #ипотека #ипотека_сбер

затем биграммы того что осталось
следом замена по словам того что осталось необработанным после биграмм на выходе получим

#продать #1комната #квартира ул. ленина 32 #9млн #5этаж #5этажей #последний_этаж #площадь_50 #без_отделки жк Минестерские Высоты #ипотека #ипотека_сбер

по этому уже можно искать по сути эмбеддинги размеченные вручную, верно?

источник

10:39пожаловаться #2

AK

Alexander Kukushkin in Natural Language Processing

Четвертый пост https://lena-voita.github.io/nlp_course/seq2seq_and_attention.html из курса Лены Войты https://lena-voita.github.io/nlp_course/seq2seq_and_attention.html про Трансформеры. Опять по-моему если всё это не знать перед прочтением ничего не поймёшь. Хороший конспект, логичные переходы Language Model -> Seq2Seq -> Attention -> Transformer. Ссылается на свои хорошие популярные работы:
- Из раздела бертологии https://lena-voita.github.io/posts/acl19_heads.html
- BPE Dropout https://arxiv.org/pdf/1910.13267.pdf
Всё-таки пока первый пост про эмбеддинги был самый топовый https://lena-voita.github.io/nlp_course/word_embeddings.html. #voita

lena-voita.github.io

Seq2seq and Attention

Sequence to sequence models (training and inference), the concept of attention and the Transformer model.

источник

11:14пожаловаться #3

KL

Kir L in Natural Language Processing

грустный комментарий про тему, я как раз на первой лекции сейчас и думаю, как все хорошо. То есть дальше будет непонятно и в качестве погружения в модерн НЛП - тяжеловато? Что же делать. Вернуться в 224

источник

11:17пожаловаться #4

AK

Alexander Kukushkin in Natural Language Processing

CS224N конечно поподробнее. Посты Лены отличные, в любом случае стоит почитать

источник

11:23пожаловаться #5

TB

Timur Borgalinov in Natural Language Processing

Ребята есть задача с поиском по категориям на русском языке, категорий всего около 600. Не подскажите куда сейчас моднее всего копать?

источник

12:21пожаловаться #6

KA

Katya Artemova in Natural Language Processing

В тему курсов немного самопиара: https://openedu.ru/course/hse/TEXT/

источник

12:47пожаловаться #7

БД

Борис Добров... in Natural Language Processing

Timur Borgalinov

Ребята есть задача с поиском по категориям на русском языке, категорий всего около 600. Не подскажите куда сейчас моднее всего копать?

При таком количестве категорий ML нервно курит в стороне из-за практически нереальной возможности создать непротиворечивое представительное обучающее множество.
Забыть про "модное". взять рубанок и описывать запросами.
Опять-таки при большом количестве категорий большинство классов = простые запросы.

источник

14:09пожаловаться #8

SP

Sebastian Pereira in Natural Language Processing

Друзья, а какие инструменты использует для NER разметки датасета для русского языка? Планирую стажеров посадить размечать, посмотрел Doccano / Label Studio / INCEpTION - что-то не лежит душа, все немного недоделано.

источник

14:41пожаловаться #9

MF

M F in Natural Language Processing

Sebastian Pereira

Друзья, а какие инструменты использует для NER разметки датасета для русского языка? Планирую стажеров посадить размечать, посмотрел Doccano / Label Studio / INCEpTION - что-то не лежит душа, все немного недоделано.

Webanno ещё

источник

15:15пожаловаться #10

БД

Борис Добров... in Natural Language Processing

Sebastian Pereira

Друзья, а какие инструменты использует для NER разметки датасета для русского языка? Планирую стажеров посадить размечать, посмотрел Doccano / Label Studio / INCEpTION - что-то не лежит душа, все немного недоделано.

BRAT - просто как АК-47

источник

15:25пожаловаться #11

SP

Sebastian Pereira in Natural Language Processing

Webanno ещё

INCEpTION это как Webanno только не работает.

источник

15:37пожаловаться #12

RB

Radion Bikmukhamedov in Natural Language Processing

Sebastian Pereira

Друзья, а какие инструменты использует для NER разметки датасета для русского языка? Планирую стажеров посадить размечать, посмотрел Doccano / Label Studio / INCEpTION - что-то не лежит душа, все немного недоделано.

я юзал doccano, там API есть, можно прикрутить автоматизацию какую надо потом

источник

15:43пожаловаться #13

SP

Sebastian Pereira in Natural Language Processing

Radion Bikmukhamedov

я юзал doccano, там API есть, можно прикрутить автоматизацию какую надо потом

Да, я поставил, посмотрел - работает. Тут основной вопрос в обучении тех, кто сядет размечать. В платном Prodigy - такое ощущение, что ребенок разберется, с doccano очевидно, что он рассчитан не на стажеров, а на самих разработчиков.

источник

15:48пожаловаться #14

RB

Radion Bikmukhamedov in Natural Language Processing

именно размечать стажеры смогут, но чутка в админке django надо покопаться чтобы под свои нужды подстроить, это да

источник

15:50пожаловаться #15

NK

Nikolay Karelin in Natural Language Processing

Sebastian Pereira

Друзья, а какие инструменты использует для NER разметки датасета для русского языка? Планирую стажеров посадить размечать, посмотрел Doccano / Label Studio / INCEpTION - что-то не лежит душа, все немного недоделано.

Doccano - завели быстро, не понравилось на длинных документах, так очень приятно. Label Studio - кастомизируется более-менее, но посложнее .

источник

16:34пожаловаться #16

MK

Max Kuznetsov in Natural Language Processing

Sebastian Pereira

Друзья, а какие инструменты использует для NER разметки датасета для русского языка? Планирую стажеров посадить размечать, посмотрел Doccano / Label Studio / INCEpTION - что-то не лежит душа, все немного недоделано.

BRAT

источник

17:30пожаловаться #17

A

Arthur in Natural Language Processing

В тему курсов немного самопиара: https://openedu.ru/course/hse/TEXT/

планируется продолжение?

источник

23:30пожаловаться #18

2020 October 19

EB

Evgeniy Blinov in Natural Language Processing

Существует ли что-то вроде BeatifulSoup для файлов markdown?

источник

00:52пожаловаться #19

AD

Andrew Dakhnovsky in Natural Language Processing

Существует ли что-то вроде BeatifulSoup для файлов markdown?

гугл говорит что существует

источник

00:59пожаловаться #20