Size: a a a

Natural Language Processing

2020 November 23

OM

Orzhan Mikhail in Natural Language Processing
"Н а п о л е о н с е я л л ё н" - есть две возможные расшифровки. Без знания контекста верный вариант не выбрать
источник

OM

Orzhan Mikhail in Natural Language Processing
Так что 100% может быть очень сложно получить
источник

NM

Nick Mikhailovsky in Natural Language Processing
Yuri Baburov
отвечал я недавно ровно на этот вопрос в ODS.
1) детекция (регуляркой какой-нибудь)
2) spell checking .
можно и сразу весь текст на spell checking подать, но на такой, который умеет несколько пробелов убирать сразу, как @kasha131 предлагает.
Или рескоринг трансформером сделать, как делаем при распознавании речи
источник

t

tkmwby in Natural Language Processing
Orzhan Mikhail
"Н а п о л е о н с е я л л ё н" - есть две возможные расшифровки. Без знания контекста верный вариант не выбрать
так два или более возможных вариантов отдавай . по другому никак.
источник

NM

Nick Mikhailovsky in Natural Language Processing
Начинается маленькое мексиканское нашествие на научно-технические вебинары НТР и HITS ТГУ!

В авангарде, то есть на завтрашнем вебинаре - Григорий Сидоров, команда которого неоднократно выигрывала приуроченные к конференциям по вычислительной лингвистике соревнования. Он расскажет, насколько я понимаю, о ряде нетрадиционных эмбеддингов и функций потерь, которые помогали им это делать.

Вебинар завтра, 24 ноября в 18:00 по Москве (22:00 по Томску). А в Мексико-сити в это время утро!

Регистрация: https://us02web.zoom.us/webinar/register/1515989556145/WN_Q7G6bUfdRpycpE_d27Ej7w
источник

t

tkmwby in Natural Language Processing
Orzhan Mikhail
"Н а п о л е о н с е я л л ё н" - есть две возможные расшифровки. Без знания контекста верный вариант не выбрать
в русском языке вообще такого полно, где без контекста никак
источник

AK

Anton Kolonin in Natural Language Processing
Sasha Zhu
Всем привет!
Ищу того, с кем можно было бы проконсультироваться по NLG. Напишите мне, пожалуйста, в лс, если обладаете подобной экспертизой. Спасибо!
Почему то не могу написать в личку. Вопрос по NLG еще актуален?  Если - да, то - попробуйте написать в личку мне 😊
источник
2020 November 24

DD

David Dale in Natural Language Processing
Всем привет!
Команда SberDevices ищет разработчика, способного за месяц-другой собрать качественный поисковый движок для одного конкретного специфичного домена. Там будет некоторое количество NLU (т.к. у запросов есть определенная структура) и, конечно, до кучи ранжирования. Присоединится к команде можно как подрядчик чисто на этот проект, а можно наняться и остаться надолго. В любом случае, оплата ожидается очень неплохая, ибо человек нужен остро (точных чисел, увы, не знаю).

В компании уже есть несколько сильных ребят, занимающихся поиском, и есть некоторые уже разработанные инструменты для поиска. Но на эту конкретную задачу не хватает рук, а решить её нужно быстро. Возможно, это окажется очень просто, но может получится и так, что вылезет куча неочевидных проблем. Пока определенности мало, ибо пока нет вообще никакого прототипа, и не собраны почти никакие данные.

От человека, который поможет снять эту неопределенность, ожидается много: что он может писать продакшн код (яп - python и плюсы), умеет обучать модели для ранжирования, и способен принимать решения: какой код писать, на чем обучать модели, как оценивать их качество, и т.п. Некоторая поддержка от команды ожидается, но поскольку они все перегружены, работа будет по большей части автономной.

Получается, что человек нужен крутой, а задача пока довольно мутная. Но задача зато интересная, и награда ожидается хорошая, так что я сам бы за неё взялся, если бы было время. А так - ищу кого-то среди вас.
Если вам интересно или у вас есть какие-то вопросы, пишите @helmeton, она непосредственный заказчик.
источник

MK

Max Kuznetsov in Natural Language Processing
David Dale
Всем привет!
Команда SberDevices ищет разработчика, способного за месяц-другой собрать качественный поисковый движок для одного конкретного специфичного домена. Там будет некоторое количество NLU (т.к. у запросов есть определенная структура) и, конечно, до кучи ранжирования. Присоединится к команде можно как подрядчик чисто на этот проект, а можно наняться и остаться надолго. В любом случае, оплата ожидается очень неплохая, ибо человек нужен остро (точных чисел, увы, не знаю).

В компании уже есть несколько сильных ребят, занимающихся поиском, и есть некоторые уже разработанные инструменты для поиска. Но на эту конкретную задачу не хватает рук, а решить её нужно быстро. Возможно, это окажется очень просто, но может получится и так, что вылезет куча неочевидных проблем. Пока определенности мало, ибо пока нет вообще никакого прототипа, и не собраны почти никакие данные.

От человека, который поможет снять эту неопределенность, ожидается много: что он может писать продакшн код (яп - python и плюсы), умеет обучать модели для ранжирования, и способен принимать решения: какой код писать, на чем обучать модели, как оценивать их качество, и т.п. Некоторая поддержка от команды ожидается, но поскольку они все перегружены, работа будет по большей части автономной.

Получается, что человек нужен крутой, а задача пока довольно мутная. Но задача зато интересная, и награда ожидается хорошая, так что я сам бы за неё взялся, если бы было время. А так - ищу кого-то среди вас.
Если вам интересно или у вас есть какие-то вопросы, пишите @helmeton, она непосредственный заказчик.
"одного конкретного специфичного домена", а что за домен? В сбере такое количество комманд, что вполне может оказаться, что по этому " конкретного специфичного домена" уже есть наработки.
источник

DD

David Dale in Natural Language Processing
Max Kuznetsov
"одного конкретного специфичного домена", а что за домен? В сбере такое количество комманд, что вполне может оказаться, что по этому " конкретного специфичного домена" уже есть наработки.
Я так не думаю, но чем чёрт не шутит. Напиши @helmeton, она расскажет.
источник

AK

Alexander Kukushkin in Natural Language Processing
Huawei NLP Workshop https://huawei-university.github.io/nlpworkshop/
Huawei Russian Research Institute is organising Huawei NLP Workshop. The workshop will be held online at 27.11.2020, the starting time is 09.55 MSK (UTC+3). Please join the discussion group in Telegram https://t.me/joinchat/DDlYRxZBezEtV8VWAgSBAw , we publish a link for the workshop there.
Speakers
We welcome our speakers, from academia and from Huawei Research (alphabetically):
Alexander Panchenko
Anna Rumshisky
Andrey Kutuzov
Ivan Bondarenko
Mehdi Rezagholizade
Michael Galkin
Milan Gritta
Preslav Nakov
Serge Sharoff
Sergey Nikolenko
Valentin Malykh
We announce the themes of the presentations in a meantime.
по всем вопросам можно писать @madrugado
источник

TM

Toemik Mnemonic in Natural Language Processing
Приветствую! Что посоветуете изучить из теоретических материалов (статьи, методики, книги)  о задачах классификации фраз?
источник

BS

Bogdan Salyp in Natural Language Processing
А в чём задача? Какой язык, классы, данные?
источник

RM

Roman Milovanov in Natural Language Processing
David Dale
Всем привет!
Команда SberDevices ищет разработчика, способного за месяц-другой собрать качественный поисковый движок для одного конкретного специфичного домена. Там будет некоторое количество NLU (т.к. у запросов есть определенная структура) и, конечно, до кучи ранжирования. Присоединится к команде можно как подрядчик чисто на этот проект, а можно наняться и остаться надолго. В любом случае, оплата ожидается очень неплохая, ибо человек нужен остро (точных чисел, увы, не знаю).

В компании уже есть несколько сильных ребят, занимающихся поиском, и есть некоторые уже разработанные инструменты для поиска. Но на эту конкретную задачу не хватает рук, а решить её нужно быстро. Возможно, это окажется очень просто, но может получится и так, что вылезет куча неочевидных проблем. Пока определенности мало, ибо пока нет вообще никакого прототипа, и не собраны почти никакие данные.

От человека, который поможет снять эту неопределенность, ожидается много: что он может писать продакшн код (яп - python и плюсы), умеет обучать модели для ранжирования, и способен принимать решения: какой код писать, на чем обучать модели, как оценивать их качество, и т.п. Некоторая поддержка от команды ожидается, но поскольку они все перегружены, работа будет по большей части автономной.

Получается, что человек нужен крутой, а задача пока довольно мутная. Но задача зато интересная, и награда ожидается хорошая, так что я сам бы за неё взялся, если бы было время. А так - ищу кого-то среди вас.
Если вам интересно или у вас есть какие-то вопросы, пишите @helmeton, она непосредственный заказчик.
Видимо "Салют" доучивать?
источник

DD

David Dale in Natural Language Processing
Roman Milovanov
Видимо "Салют" доучивать?
Ага, это у них сейчас вроде как основной продукт. И поиск нужен для одного из его новых сценариев.
источник

TM

Toemik Mnemonic in Natural Language Processing
Bogdan Salyp
А в чём задача? Какой язык, классы, данные?
русский язык. Контекст представляет короткие фразы (словосочетание - 1 предложение максимум) где токены существительных, глаголов и вопросительных слов, в моем понимании и должны являться признаками (сейчас классифицируются на основе близости векторов фразы и векторов "эталонов").
источник

RM

Roman Milovanov in Natural Language Processing
David Dale
Ага, это у них сейчас вроде как основной продукт. И поиск нужен для одного из его новых сценариев.
мы для них уже делали разметку, перед запуском Салюта.
источник

BS

Bogdan Salyp in Natural Language Processing
Toemik Mnemonic
русский язык. Контекст представляет короткие фразы (словосочетание - 1 предложение максимум) где токены существительных, глаголов и вопросительных слов, в моем понимании и должны являться признаками (сейчас классифицируются на основе близости векторов фразы и векторов "эталонов").
данные размечены? и какое колво классов?
источник

TM

Toemik Mnemonic in Natural Language Processing
Bogdan Salyp
А в чём задача? Какой язык, классы, данные?
опыта мало, поэтому хотелось бы на основе теории подвергнуть критике такой подход ( рассмотрев другие подходы и узнать о том как правильно подготовить данные: мешают ли или помогают вопросительные слова, приставки и т д). Конечно можно по разному готовить данные и  по стат метрикам смотреть как повышается эффективность, но лучше бы букварь понимать)
источник

TM

Toemik Mnemonic in Natural Language Processing
Bogdan Salyp
данные размечены? и какое колво классов?
4-6 классов. Данные используемые для контроля размечены
источник