Size: a a a

Natural Language Processing

2020 October 02

ВГ

Вадим Гилемзянов... in Natural Language Processing
Arthur Saprykin
Привет! Был опыт, и победил USE, в моем случае.

Делил кластера, и достаточно неплохо вышло.
по тестам если смотреть - USE отлично работает с одним предложением, но если будет несколько предложений ( например в сообщении) - то Bert лучше себя показывает
источник

DD

David Dale in Natural Language Processing
Вадим Гилемзянов
Ребят, такой вопрос. Кто использовал берт для определения симулярити групп. И если использовали - был ли опыт с использованием ELMO-BERT vs USE?
Вброшу ещё LASER сюда, он мультилингвальный, и для одиночных предложений примерно на одном уровне с бертом и USE работает.
источник

SP

Sebastian Pereira in Natural Language Processing
Arthur Saprykin
Привет! Был опыт, и победил USE, в моем случае.

Делил кластера, и достаточно неплохо вышло.
+
источник

SP

Sebastian Pereira in Natural Language Processing
Делали кластеризацию документов - MUSE в топе.
источник

A

Ajay in Natural Language Processing
Has anybody here used spark nlp by johnSnow LABs?
Inorder to use pretrained model for spark nlp, do I need any license or anything or that sort?
источник

SA

Sergei Ananyan in Natural Language Processing
Alexandr Zamaraev
А чем оно принципиально отличается от тамиты или наташи?
В отличии от тамиты, ТМ Мегапьютера (Sapremo) работает на индексе (обратном и прямом), а не ищет последовательно по тексту.  Отсюда и значительно более высокая производительность.
В отличии от наташи, ТМ Мегапьютера работает на rule-based подходе (NER) и соответственно ему не нужен размеченный корпус, нет проблем с коррекцией ошибок или адаптаций решения под новые данные.  Вообще, модуль предоставлен для скачивания на tm.megaputer.ru. Так что любой разработчик может сравнить как точность анализа, так и производительность системы самостоятельно.
источник

SA

Sergei Ananyan in Natural Language Processing
Yuri Baburov
Спасибо. А что насчёт сравнений качества?
Юрий, я вроде ответил уже подробно на этот вопрос выше. Отвечаю еще раз коротко... Навскидку, для стандартных сущностей sapremo дает 92-97 по точности и 85-95 по полноте. Но эти оценки сильно зависят от области применения. Если Вас интересуют результаты оценки качества на каком-то конкретном размеченном корпусе, то пришлите ссылку на него, или можете попробовать сами протестировать.
источник

Y

Yevhen in Natural Language Processing
Сорри, не туда )
источник

YB

Yuri Baburov in Natural Language Processing
Sergei Ananyan
Юрий, я вроде ответил уже подробно на этот вопрос выше. Отвечаю еще раз коротко... Навскидку, для стандартных сущностей sapremo дает 92-97 по точности и 85-95 по полноте. Но эти оценки сильно зависят от области применения. Если Вас интересуют результаты оценки качества на каком-то конкретном размеченном корпусе, то пришлите ссылку на него, или можете попробовать сами протестировать.
А, извиняюсь, пропустил. В вашей области -- сравнение с pullenti нужно делать, и с нейросетевыми библиотеками для NER: с ними интересует качество по PERson и ORGanization, на тех датасетах, что есть в naeval . Для других областей увы таковых датасетов нет, сравнивать нечего...
источник

SA

Sergei Ananyan in Natural Language Processing
Yuri Baburov
А, извиняюсь, пропустил. В вашей области -- сравнение с pullenti нужно делать, и с нейросетевыми библиотеками для NER: с ними интересует качество по PERson и ORGanization, на тех датасетах, что есть в naeval . Для других областей увы таковых датасетов нет, сравнивать нечего...
Спасибо за детали. Я переслал Ваш запрос о конкретных целях сравнения нашей команде. Когда получу ответ от них, отвечу более подробно.
источник

DK

Denis Kirjanov in Natural Language Processing
Sergei Ananyan
В отличии от тамиты, ТМ Мегапьютера (Sapremo) работает на индексе (обратном и прямом), а не ищет последовательно по тексту.  Отсюда и значительно более высокая производительность.
В отличии от наташи, ТМ Мегапьютера работает на rule-based подходе (NER) и соответственно ему не нужен размеченный корпус, нет проблем с коррекцией ошибок или адаптаций решения под новые данные.  Вообще, модуль предоставлен для скачивания на tm.megaputer.ru. Так что любой разработчик может сравнить как точность анализа, так и производительность системы самостоятельно.
О, а меня к вам не взяли 6 лет назад )
источник

SA

Sergei Ananyan in Natural Language Processing
Denis Kirjanov
О, а меня к вам не взяли 6 лет назад )
Денис, ну всяко бывает. Если Вы реально увлечены анализом текстов, и еще не потеряли интерес к работе у нас, присылайте резюме. За 6 лет вообще многое могло измениться. Иногда вещи получаются и со второй попытки. Мы всегда ищем таланты.
источник

IK

Ilya Kazakov in Natural Language Processing
Sebastian Pereira
Делали кластеризацию документов - MUSE в топе.
Документы на русском языке? Большие?
источник

DK

Denis Kirjanov in Natural Language Processing
Sergei Ananyan
Денис, ну всяко бывает. Если Вы реально увлечены анализом текстов, и еще не потеряли интерес к работе у нас, присылайте резюме. За 6 лет вообще многое могло измениться. Иногда вещи получаются и со второй попытки. Мы всегда ищем таланты.
Спасибо, я за эти 6 лет неплохую карьеру успел сделать и без мегапьютера )
источник

SP

Sebastian Pereira in Natural Language Processing
Ilya Kazakov
Документы на русском языке? Большие?
Да, на русском, большие.
источник
2020 October 03

АК

Андрей Ключаревский... in Natural Language Processing
Здравствуйте! Кто может помочь с классификатором ключевых слов на теги "годно", "негодно", "годно+негодно".  Данные разметил как в скрине, но лучше, чтобы перевод не склеивался с оргиналом. Хотел через monkeylearn прогрузить, а там лимит 300 запросов.

Буду запускать с вин10. А еще лучше подскажите что-то с двухкнопочным интерфейсом, а то пробовал knime - не зашло
источник

АК

Андрей Ключаревский... in Natural Language Processing
источник

SD

Sergey Dulikov in Natural Language Processing
Логика разметки не очень понятна, поэтому не понятен подоход к задаче
источник

SD

Sergey Dulikov in Natural Language Processing
Если просто по словарю, то написать на с++ программку, куда уж эффективнее
источник

IP

Igor Panteleev in Natural Language Processing
Андрей Ключаревский
Здравствуйте! Кто может помочь с классификатором ключевых слов на теги "годно", "негодно", "годно+негодно".  Данные разметил как в скрине, но лучше, чтобы перевод не склеивался с оргиналом. Хотел через monkeylearn прогрузить, а там лимит 300 запросов.

Буду запускать с вин10. А еще лучше подскажите что-то с двухкнопочным интерфейсом, а то пробовал knime - не зашло
а почему knime не зашел?
источник