Size: a a a

Natural Language Processing

2020 October 18

ДА

Дмитрий Абвгд... in Natural Language Processing
имеет место простая замена на смысловые признаки?

продам 1к.кв. м.московская ул. ленина 32 9200000 5этаж 5этажного 54м2 без отделки, вид на парк. жк Минестерские Высоты проходит ипотека сбера
источник

ДА

Дмитрий Абвгд... in Natural Language Processing
разбить сначала на триграммы:
высоты проходит ипотека => NULL
проходит ипотека сбера => #ипотека #ипотека_сбер

затем биграммы того что осталось
следом замена по словам того что осталось необработанным после биграмм на выходе получим

#продать #1комната #квартира ул. ленина 32 #9млн #5этаж #5этажей #последний_этаж #площадь_50 #без_отделки жк Минестерские Высоты #ипотека #ипотека_сбер

по этому уже можно искать по сути эмбеддинги размеченные вручную, верно?
источник

AK

Alexander Kukushkin in Natural Language Processing
Четвертый пост https://lena-voita.github.io/nlp_course/seq2seq_and_attention.html из курса Лены Войты https://lena-voita.github.io/nlp_course/seq2seq_and_attention.html про Трансформеры. Опять по-моему если всё это не знать перед прочтением ничего не поймёшь. Хороший конспект, логичные переходы Language Model -> Seq2Seq -> Attention -> Transformer. Ссылается на свои хорошие популярные работы:
- Из раздела бертологии https://lena-voita.github.io/posts/acl19_heads.html
- BPE Dropout https://arxiv.org/pdf/1910.13267.pdf
Всё-таки пока первый пост про эмбеддинги был самый топовый https://lena-voita.github.io/nlp_course/word_embeddings.html. #voita
источник

KL

Kir L in Natural Language Processing
грустный комментарий про тему, я как раз на первой лекции сейчас и думаю, как все хорошо. То есть дальше будет непонятно и в качестве погружения в модерн НЛП - тяжеловато? Что же делать. Вернуться в 224
источник

AK

Alexander Kukushkin in Natural Language Processing
CS224N конечно поподробнее. Посты Лены отличные, в любом случае стоит почитать
источник

TB

Timur Borgalinov in Natural Language Processing
Ребята есть задача с поиском по категориям на русском языке, категорий всего около 600. Не подскажите куда сейчас моднее всего копать?
источник

KA

Katya Artemova in Natural Language Processing
В тему курсов немного самопиара: https://openedu.ru/course/hse/TEXT/
источник

БД

Борис Добров... in Natural Language Processing
Timur Borgalinov
Ребята есть задача с поиском по категориям на русском языке, категорий всего около 600. Не подскажите куда сейчас моднее всего копать?
При таком количестве категорий ML нервно курит в стороне из-за практически нереальной возможности создать непротиворечивое представительное обучающее множество.
Забыть про "модное". взять рубанок и описывать запросами.
Опять-таки при большом количестве категорий большинство классов = простые запросы.
источник

SP

Sebastian Pereira in Natural Language Processing
Друзья, а какие инструменты использует для NER разметки датасета для русского языка? Планирую стажеров посадить размечать, посмотрел Doccano / Label Studio / INCEpTION - что-то не лежит душа, все немного недоделано.
источник

MF

M F in Natural Language Processing
Sebastian Pereira
Друзья, а какие инструменты использует для NER разметки датасета для русского языка? Планирую стажеров посадить размечать, посмотрел Doccano / Label Studio / INCEpTION - что-то не лежит душа, все немного недоделано.
Webanno ещё
источник

БД

Борис Добров... in Natural Language Processing
Sebastian Pereira
Друзья, а какие инструменты использует для NER разметки датасета для русского языка? Планирую стажеров посадить размечать, посмотрел Doccano / Label Studio / INCEpTION - что-то не лежит душа, все немного недоделано.
BRAT - просто как АК-47
источник

SP

Sebastian Pereira in Natural Language Processing
M F
Webanno ещё
INCEpTION это как Webanno только не работает.
источник

RB

Radion Bikmukhamedov in Natural Language Processing
Sebastian Pereira
Друзья, а какие инструменты использует для NER разметки датасета для русского языка? Планирую стажеров посадить размечать, посмотрел Doccano / Label Studio / INCEpTION - что-то не лежит душа, все немного недоделано.
я юзал doccano, там API есть, можно прикрутить автоматизацию какую надо потом
источник

SP

Sebastian Pereira in Natural Language Processing
Radion Bikmukhamedov
я юзал doccano, там API есть, можно прикрутить автоматизацию какую надо потом
Да, я поставил, посмотрел - работает. Тут основной вопрос в обучении тех, кто сядет размечать. В платном Prodigy - такое ощущение, что ребенок разберется, с doccano очевидно, что он рассчитан не на стажеров, а на самих разработчиков.
источник

RB

Radion Bikmukhamedov in Natural Language Processing
именно размечать стажеры смогут, но чутка в админке django надо покопаться чтобы под свои нужды подстроить, это да
источник

NK

Nikolay Karelin in Natural Language Processing
Sebastian Pereira
Друзья, а какие инструменты использует для NER разметки датасета для русского языка? Планирую стажеров посадить размечать, посмотрел Doccano / Label Studio / INCEpTION - что-то не лежит душа, все немного недоделано.
Doccano - завели быстро,  не понравилось на длинных документах, так очень приятно. Label Studio - кастомизируется более-менее,  но посложнее .
источник

MK

Max Kuznetsov in Natural Language Processing
Sebastian Pereira
Друзья, а какие инструменты использует для NER разметки датасета для русского языка? Планирую стажеров посадить размечать, посмотрел Doccano / Label Studio / INCEpTION - что-то не лежит душа, все немного недоделано.
BRAT
источник

A

Arthur in Natural Language Processing
Katya Artemova
В тему курсов немного самопиара: https://openedu.ru/course/hse/TEXT/
планируется продолжение?
источник
2020 October 19

EB

Evgeniy Blinov in Natural Language Processing
Существует ли что-то вроде BeatifulSoup для файлов markdown?
источник

AD

Andrew Dakhnovsky in Natural Language Processing
Evgeniy Blinov
Существует ли что-то вроде BeatifulSoup для файлов markdown?
гугл говорит что существует
источник