Size: a a a

Natural Language Processing

2021 January 20

SancheZz Мов in Natural Language Processing
Может и для поиска кто использует)
источник

SancheZz Мов in Natural Language Processing
Месье разные бывают)
источник

PV

Peter Vanin in Natural Language Processing
Yuri Baburov
да. гуглите BERT for google search
(GPT — генератор текста, а BERT — хорошие эмбеддинги).
или интересует именно генерация текста? тогда мне непонятна задача
Да, верное замечание. Генератор текста в моем предположении как хилый способ брать наиндексированное и выдавать кратко, без издержек. Понятно что лишний слой, но если провести поиск как "общение" с поисковиком, мб что-то можно получить путного
источник

YB

Yuri Baburov in Natural Language Processing
SancheZz Мов
Знаю что ребята юзали для токсика гпт эмбеддинги)
у gpt эмбеддинги обычно похуже после fine-tuning. но может им это как-то помогало в их конкретной задаче.
источник

SancheZz Мов in Natural Language Processing
Четкая статья! Вот видео с выступлением https://youtu.be/M0-UGNFa0PA
YouTube
Как Яндекс решает задачу ранжирования с помощью больших нейросетей – Александр Готманов, Яндекс
Слайды: https://yadi.sk/i/NANb8OrztWDkeg

Поговорим о том, почему ранжирование Яндекса всё больше определяется нейросетями: как они учатся предсказывать экспертные оценки, почему хорошие оценки стоят дорого и их мало. Углубимся в историю: посмотрим на нейросети в ретроспективе и сравним их по качеству, уделив особое внимание разным вариантам трансформеров. Расскажу (с погружением в технологии), как мы создавали свой трансформер для ранжирования, который кардинально изменил работу алгоритма, и немного о будущем: сверхбольших моделях, генеративных моделях и др.

О спикере:
Александр Готманов окончил ВМК МГУ в 2005 году. После университета — разработчик-исследователь в московском отделении Intel. С 2014-го занимается качеством поиска в Яндексе. Руководитель группы нейросетевых технологий.
источник

DD

David Dale in Natural Language Processing
Peter Vanin
Да, верное замечание. Генератор текста в моем предположении как хилый способ брать наиндексированное и выдавать кратко, без издержек. Понятно что лишний слой, но если провести поиск как "общение" с поисковиком, мб что-то можно получить путного
Яндекс.Алиса сейчас постепенно в этом направлении ползёт) Некоторая доля её ответов на фактоидные запросы как раз генерируется gpt-подобной нейронкой на основе поисковой выдачи.
источник

PV

Peter Vanin in Natural Language Processing
Вот, идея достаточно на поверхности, чтобы гиганты заинтересовались подобным))
Хотя в моем случае больше сторона "а возможно ли selfhosted", и полагаю что ответ да
источник

AK

Anton K. in Natural Language Processing
Peter Vanin
Да, верное замечание. Генератор текста в моем предположении как хилый способ брать наиндексированное и выдавать кратко, без издержек. Понятно что лишний слой, но если провести поиск как "общение" с поисковиком, мб что-то можно получить путного
тоже думаем в том направлении, что пробелма поиска именно в том, что он по одной фразе должен понять контекст. хотя контекст лучше понять из диалога. у вас какая задача в целом?
источник

DD

David Dale in Natural Language Processing
Peter Vanin
Вот, идея достаточно на поверхности, чтобы гиганты заинтересовались подобным))
Хотя в моем случае больше сторона "а возможно ли selfhosted", и полагаю что ответ да
Selfhosted поисковый индекс - нуууу только если у вас очень много ресурсов, либо если вы ищете по достаточно ограниченному числу документов.
Selfhosted суммаризатор поисковой выдачи - изи, если у вас есть размеченные данные для его обучения.
источник

PV

Peter Vanin in Natural Language Processing
Никакой пока, просто гипотетический интерес. Под это нужны свободные умные лапки и много железа, так что фантазии. Скажем если набирать самостоятельно информацию с вручную отобранных сайтов. Типа опеннет, хабр, либген и прочее. И потом хранить для локального использования. Целиком наиндексированное, а не гиперссылками на источники
источник

AK

Anton Kolonin in Natural Language Processing
Если кого-то интересует "нейросимвольный NLP", вот тут я делюсь опытом нескольких проектов: https://www.youtube.com/watch?v=8RiNxYEk4D0
источник

DD

David Dale in Natural Language Processing
А в текстовой форме есть?
Статьи, посты и т.п.
источник

AK

Anton Kolonin in Natural Language Processing
David Dale
А в текстовой форме есть?
Статьи, посты и т.п.
Ссылки на статьи есть в слайдах http://aigents.com/papers/2020/InterpretableLanguageProcessing2020.pdf
источник

DD

David Dale in Natural Language Processing
Anton Kolonin
Ссылки на статьи есть в слайдах http://aigents.com/papers/2020/InterpretableLanguageProcessing2020.pdf
О, спасибище!
источник

ЕТ

Евгений Томилов... in Natural Language Processing
Поясните, пожалуйста. Вот, есть у меня два набора имён: эльфийские, людоящеров и людские))0) Они сильно различаются на мой взгляд.
И я хочу сделать три модели, которые будут генерировать имя, похожее на один из трёх наборов.
Вопросы:
1) Я так понимаю, тут не особо подойдёт решение в лоб через цепи Маркова, потому что разная длина имён и всё такое;
2) Может, можно обойтись одной моделью?
источник

DD

David Dale in Natural Language Processing
Через цепи Маркова или посимвольную нейросетку вполне может получиться. Разница в длине имён тут не играет роли, ведь "конец имени" - такой же символ, как и все остальные, и модель точно так же может научиться его генерировать.
Думаю, что сделать три модели будет проще, чем одну модель, описывающую все три распределения.
источник

AA

Alexandra A in Natural Language Processing
Помню в курсе Andrew Ng по deep learning была похожая домашка - нужно было генерировать названия динозавров. Но там что-то с нейросетью было
источник

ЕТ

Евгений Томилов... in Natural Language Processing
Спасибо за направление!
источник

A

Artem in Natural Language Processing
Евгений Томилов
Поясните, пожалуйста. Вот, есть у меня два набора имён: эльфийские, людоящеров и людские))0) Они сильно различаются на мой взгляд.
И я хочу сделать три модели, которые будут генерировать имя, похожее на один из трёх наборов.
Вопросы:
1) Я так понимаю, тут не особо подойдёт решение в лоб через цепи Маркова, потому что разная длина имён и всё такое;
2) Может, можно обойтись одной моделью?
Можно заморочиться и описать по набору фонологических правил для каждого из "языков", а потом по нужному набору генерировать новые слова
Как здесь: https://www.zompist.com/gen.html
источник

ЕТ

Евгений Томилов... in Natural Language Processing
Artem
Можно заморочиться и описать по набору фонологических правил для каждого из "языков", а потом по нужному набору генерировать новые слова
Как здесь: https://www.zompist.com/gen.html
А вот это уже интереснее!
источник