Size: a a a

Natural Language Processing

2020 December 04

V

Vic in Natural Language Processing
Ребят, а как посоветуете решить задачу изменения пола в реплике юзера: есть текст, в нем юзер пишет "Я вышла погулять, а там мне девочка сказала идти нафик" - нужно "вышла" превратить в "вышел", но при этом не тронуть другие факты.
Понятно, что тут pymorphy2 превращает, но часто нужно и другие слова изменить их словоформу и вот тогда нужно строить дерево предложения, есть ли готовые или простые варианты решения задачи?
источник

НК

Николай Карпенко... in Natural Language Processing
Anatoliy Polischuk
Подскажите, пожалуйста, известны ли кому open-source решения поиска печатей в pdf документах? В каком направлении искать информацию? Google-ние пока результатов не дало. Спасибо.
это из области компьютерного зрения object detection.
источник

ПП

Павел Приказчиков... in Natural Language Processing
Anatoliy Polischuk
Подскажите, пожалуйста, известны ли кому open-source решения поиска печатей в pdf документах? В каком направлении искать информацию? Google-ние пока результатов не дало. Спасибо.
делал подобное на yolo, самый длительный этап -  разметка
источник

IK

Irina Krotova in Natural Language Processing
Anatoliy Polischuk
Подскажите, пожалуйста, известны ли кому open-source решения поиска печатей в pdf документах? В каком направлении искать информацию? Google-ние пока результатов не дало. Спасибо.
Кажется, с этим в чат не по NLP нужно:) В опенсорсе вряд ли есть, но сейчас быстро за кофе нагуглила всякие решения, где идёт поиск по окружностям, цвету и т.д. почти без разметки.

https://m.habr.com/ru/company/directum/blog/486476/

старая статья с конференции ИППИ с похожим подходом — http://itas2012.iitp.ru/pdf/1569605143.pdf

По ключевым словам "seal detection/recognition" находятся более современные подходы, если есть, кому разметить печати.
источник

НК

Николай Карпенко... in Natural Language Processing
Alexander Kukushkin
Мне тут стало интересно провести инвентаризацию пабликов про NLP на русском. Дополняйте:
- https://t.me/natural_language_processing — этот чат, изначально чат пользователей проекта Natasha
- https://ods.ai/ #nlp
- https://t.me/dlinnlp2020spring https://t.me/dlinnlp https://t.me/dlinnlp_discuss — МФТИ
- https://t.me/nlp_seminar https://t.me/nlp_spb — Вышка
- https://t.me/NLP_weekly — ШАД
- https://t.me/nlp_ru
- https://t.me/towards_nlp
- https://t.me/Pullenti
- https://vk.com/mathlingvo
- https://www.facebook.com/dialogue21 — конференция Диалог
- https://t.me/liliyanews
источник

AP

Anatoliy Polischuk in Natural Language Processing
Irina Krotova
Кажется, с этим в чат не по NLP нужно:) В опенсорсе вряд ли есть, но сейчас быстро за кофе нагуглила всякие решения, где идёт поиск по окружностям, цвету и т.д. почти без разметки.

https://m.habr.com/ru/company/directum/blog/486476/

старая статья с конференции ИППИ с похожим подходом — http://itas2012.iitp.ru/pdf/1569605143.pdf

По ключевым словам "seal detection/recognition" находятся более современные подходы, если есть, кому разметить печати.
Спасибо всем большое! :)
источник

MK

Max Kuznetsov in Natural Language Processing
Irina Krotova
Кажется, с этим в чат не по NLP нужно:) В опенсорсе вряд ли есть, но сейчас быстро за кофе нагуглила всякие решения, где идёт поиск по окружностям, цвету и т.д. почти без разметки.

https://m.habr.com/ru/company/directum/blog/486476/

старая статья с конференции ИППИ с похожим подходом — http://itas2012.iitp.ru/pdf/1569605143.pdf

По ключевым словам "seal detection/recognition" находятся более современные подходы, если есть, кому разметить печати.
Отмечу, что разметка печатей выглядит достаточно простой, а значит не дорогой. А наличие разметки сразу расширяет количество доступных подходов и даже в случае реализации без ML, можно оценить качество и подобрать оптимальные параметры.
источник

MK

Max Kuznetsov in Natural Language Processing
Max Kuznetsov
Отмечу, что разметка печатей выглядит достаточно простой, а значит не дорогой. А наличие разметки сразу расширяет количество доступных подходов и даже в случае реализации без ML, можно оценить качество и подобрать оптимальные параметры.
Подводные камни - собрать выборку для разметки и анонимизировать, если необходимо. И кстати, здесь простор для синтетики и аугментации.
источник

SS

Sergey Shulga in Natural Language Processing
Irina Krotova
Кажется, с этим в чат не по NLP нужно:) В опенсорсе вряд ли есть, но сейчас быстро за кофе нагуглила всякие решения, где идёт поиск по окружностям, цвету и т.д. почти без разметки.

https://m.habr.com/ru/company/directum/blog/486476/

старая статья с конференции ИППИ с похожим подходом — http://itas2012.iitp.ru/pdf/1569605143.pdf

По ключевым словам "seal detection/recognition" находятся более современные подходы, если есть, кому разметить печати.
Мы такое сделали- детекция, классификация по типу, извлечение данных. И без ограничений типа статей выше. В целом вышло хорошо. Поиск и классификация за 95, извлечение чуть ниже, но там и сложнее. Сорри за офтоп.
источник

D

Dima in Natural Language Processing
Всем привет, подскажите, пожалуйста, есть ли решение для разрешения лексической многозначности (WSD) на русском, что б работало из коробки. Насколько я понимаю нужно хотя бы обозначить модели варианты значений, т.е. препроцессить.
источник

SM

Sergei Markoff in Natural Language Processing
https://sbercloud.ru/ru/warp/gpt-3 — тут официальная демка модели ruGPT-3 (760M). Также в клауде можно подключиться к ruGPT-3 (1,3B). В начале следующего года будет там же ruGPT-3 (13B).
источник

YB

Yuri Baburov in Natural Language Processing
Sergei Markoff
https://sbercloud.ru/ru/warp/gpt-3 — тут официальная демка модели ruGPT-3 (760M). Также в клауде можно подключиться к ruGPT-3 (1,3B). В начале следующего года будет там же ruGPT-3 (13B).
Сергей, жжёте! Спасибо вам огромное! А расскажите, сколько оно учится. Версия на 13G будет два месяца учиться как раз?
источник

SM

Sergei Markoff in Natural Language Processing
Yuri Baburov
Сергей, жжёте! Спасибо вам огромное! А расскажите, сколько оно учится. Версия на 13G будет два месяца учиться как раз?
Не за что) Мы сейчас используем меньше половины «Кристофари» (512 карточек, вроде), но, вроде, по прикидкам с такими темпами к НГ примерно должна доучиться.
источник

SM

Sergei Markoff in Natural Language Processing
Потом надеюсь и на 175B уломать. Но посмотрим.
источник

SM

Sergei Markoff in Natural Language Processing
13B во вторник начала учиться.
источник

SM

Sergei Markoff in Natural Language Processing
Или в прошлый вторник?.. Ох, уже смешались дни и ночи. В прошлый вторник всё-таки.
источник

OR

Oleg Ruban in Natural Language Processing
Sergei Markoff
Не за что) Мы сейчас используем меньше половины «Кристофари» (512 карточек, вроде), но, вроде, по прикидкам с такими темпами к НГ примерно должна доучиться.
будет ли доступна модель на 1,3 млрд параметров вне ML Space в дальнейшем?
источник

SM

Sergei Markoff in Natural Language Processing
Oleg Ruban
будет ли доступна модель на 1,3 млрд параметров вне ML Space в дальнейшем?
Посмотрим. Может быть в будущем по мере релиза на ML Space моделей побольше.
источник

YB

Yuri Baburov in Natural Language Processing
Sergei Markoff
13B во вторник начала учиться.
Версия на 13G уже должна быть показательной. 760M слабенькая, как все отмечают. Теперь пытаются другими моделями её поведение откорректировать, но это ведь почти невозможно...
И ещё про API хотелось спросить, какие именно там методы сэмплинга у вас есть. Random, Top-1 , random-top-k ? Или можно полностью самому брать все вероятности?
источник

SM

Sergei Markoff in Natural Language Processing
В демке nucleus sampling обычный. Но можете использовать любой другой удобный, тот же beam search, псевдо-Гиббс какой-нибудь, тут вы только собственной фантазией ограничены.
источник