Size: a a a

Natural Language Processing

2020 August 16

OS

Oleg Serikov in Natural Language Processing
я раньше не очень понял чем морфанализ сам по себе полезен: какие из существительных текста — ключевые?
источник

OR

Oleg Ruban in Natural Language Processing
Oleg Serikov
я раньше не очень понял чем морфанализ сам по себе полезен: какие из существительных текста — ключевые?
Зависит от специфики задачи, в моем случае нужны именно существительные для анализа. Спасибо, посмотрю, что к чему можно и с tfidf
источник

rr

ragib rahi in Natural Language Processing
Any job support
источник

AK

Alexander Kukushkin in Natural Language Processing
Продолжение серии постов про проект Natasha. Что за Наташа? Почему в этот чат? См. https://t.me/natural_language_processing/16962

1. http://natasha.github.io/ner Natasha — качественное компактное решение для извлечения именованных сущностей из новостных статей на русском языке
2. https://t.me/natural_language_processing/17369 Почему Natasha не использует Transformers. BERT в 100 строк.
3. https://natasha.github.io/navec Navec — компактные эмбединги для русского языка
4. https://t.me/natural_language_processing/18186 BERT-модели Slovnet
5. https://natasha.github.io/corus Corus — коллекция русскоязычных NLP-датасетов
6. https://t.me/natural_language_processing/18673 Ламповый стрим про историю проекта Natasha
7. https://natasha.github.io/razdel Razdel — сегментация русскоязычного текста на токены и предложения
#natasha
источник

AK

Alexander Kukushkin in Natural Language Processing
Naeval — количественное сравнение систем для русскоязычного NLP
https://natasha.github.io/naeval

В этом чатике периодически ссылаются на бенчмарки Naeval https://t.me/natural_language_processing/16034 https://t.me/natural_language_processing/17377

Natasha — не научный проект, нет цели побить SOTA, но важно проверить качество на публичных бенчмарках, постараться занять высокое место, сильно не проиграв в производительности. Как делают в академии: измеряют качество, получают число, берут таблички из других статей, сравнивают эти числа со своими. У такой схемы есть две проблемы:
1. Забывают про производительность. Не сравнивают размер модели, скорость работы. Упор только на качество.
2. Не публикуют код. В расчёте метрики качества обычно миллион нюансов. Как именно считали в других статьях? Неизвестно.

Naeval — набор скриптов для оценки качества и производительности открытых решений для русскоязычного NLP. Сейчас покрыты 5 базовых задач, которые решает Natasha: сегментация, эмбединги, морфология, синтаксис, NER. Все инструменты завёрнуты в Docker-контейнеры с веб-интерфейсом, таблички с метриками считаются в Jupyter-скриптах. Про детали реализации на примере NER в статье https://natasha.github.io/naeval
источник

AK

Alexander Kukushkin in Natural Language Processing
Напишите в личку @alexkuk кому интересно почитать статьи для natasha.github.io до публикации. Следующий про гигантский синтетический датасет с разметкой морфологии, синтаксиса и NER. С меня ссылочка до публикации, с вас ревью что непонятно.
источник

NS

Nick Shevrov in Natural Language Processing
А есть в чате кто-то, кто пробовал code2vec? Хочу попробовать для поиска семантических дубликатов кода.
источник

NS

Nick Shevrov in Natural Language Processing
Ну или возможно кто-то просто решал такую задачу :)
источник

SS

Sergey Shulga in Natural Language Processing
А почему обычный энкодер для этой задачи не подходит?
источник

rr

ragib rahi in Natural Language Processing
I need job help
источник
2020 August 17

AC

Andrey Chankin in Natural Language Processing
ragib rahi
I need job help
I know that feel, bro...
источник

DP

Defragmented Panda in Natural Language Processing
сегодняшний уровень технологий позволяет расшифровать (50%+ текста хотя бы. не 50% слов) язык имея ноль переводов, имея только много текста на этом языке?

сколько текста нужно для этой задачи?
источник

IS

I Sh in Natural Language Processing
Defragmented Panda
сегодняшний уровень технологий позволяет расшифровать (50%+ текста хотя бы. не 50% слов) язык имея ноль переводов, имея только много текста на этом языке?

сколько текста нужно для этой задачи?
Это вам к товарищам Конорозову и Шампольону обратиться бы лучше)))
источник

YB

Yuri Baburov in Natural Language Processing
Defragmented Panda
сегодняшний уровень технологий позволяет расшифровать (50%+ текста хотя бы. не 50% слов) язык имея ноль переводов, имея только много текста на этом языке?

сколько текста нужно для этой задачи?
Имея много текстов, вы можете сделать выводы о похожести или не похожести тех или иных слов и фраз друг на друга (по похожим окружающим словам). Для расшифровки же нужна другая технология -- граундинг (от ground truth knowledge) или алайнмент (forced alignment). Это когда вы привязываете слова и фразы чужого языка к понятному вам языку. А подобная похожесть слов вам в этом поможет, потому что вы сможете слова объединять в кластеры, выделяя части речи и группы понятий.
источник

DP

Defragmented Panda in Natural Language Processing
Yuri Baburov
Имея много текстов, вы можете сделать выводы о похожести или не похожести тех или иных слов и фраз друг на друга (по похожим окружающим словам). Для расшифровки же нужна другая технология -- граундинг (от ground truth knowledge) или алайнмент (forced alignment). Это когда вы привязываете слова и фразы чужого языка к понятному вам языку. А подобная похожесть слов вам в этом поможет, потому что вы сможете слова объединять в кластеры, выделяя части речи и группы понятий.
ну ок. И ground truth \ forced alignment можно проводить из языка без перевода (но с кучей текста) к другому существующему языку (есть тоже куча текста и значения слов известны) ?
источник

YB

Yuri Baburov in Natural Language Processing
Defragmented Panda
ну ок. И ground truth \ forced alignment можно проводить из языка без перевода (но с кучей текста) к другому существующему языку (есть тоже куча текста и значения слов известны) ?
И вот для этого вам тоже нужна информация, чтобы простроить эти линии между словами из разных языков. Но намного меньше. А потом после первоначального угадывания сможете уже пытаться найти описание общих сюжетов и сопоставить слова. Ну и для топ-10 слов (я, это, он, в, и) можете пробовать разные варианты соответствий тоже.
источник

DP

Defragmented Panda in Natural Language Processing
Yuri Baburov
И вот для этого вам тоже нужна информация, чтобы простроить эти линии между словами из разных языков. Но намного меньше. А потом после первоначального угадывания сможете уже пытаться найти описание общих сюжетов и сопоставить слова. Ну и для топ-10 слов (я, это, он, в, и) можете пробовать разные варианты соответствий тоже.
ответ не понятен.

вы имеете ввиду что некоторое количество переводов все же обязательно?
источник

YB

Yuri Baburov in Natural Language Processing
Да. Обязательно или наличие каких-то переводов, или общих сюжетов (о чем тексты, общая структура мира, итп), или каких-то обоснованных предположений об используемых словах (структура языка)
источник

DP

Defragmented Panda in Natural Language Processing
понял, спасибо
источник

YB

Yuri Baburov in Natural Language Processing
Если текстов очень много, и вычислительных способностей тоже много, то можно натренировать модель отвечать на вопросы на этом языке (см на gpt-3). Правда, без какого-то начального знания этого языка вы не сможете правильно задать вопрос и понять ответ..
источник