Телеграмм чат группы natural_language

2021 January 20

SМ

SancheZz Мов in Natural Language Processing

Может и для поиска кто использует)

источник

17:12пожаловаться #1

SМ

SancheZz Мов in Natural Language Processing

Месье разные бывают)

источник

17:12пожаловаться #2

PV

Peter Vanin in Natural Language Processing

Yuri Baburov

да. гуглите BERT for google search
(GPT — генератор текста, а BERT — хорошие эмбеддинги).
или интересует именно генерация текста? тогда мне непонятна задача

Да, верное замечание. Генератор текста в моем предположении как хилый способ брать наиндексированное и выдавать кратко, без издержек. Понятно что лишний слой, но если провести поиск как "общение" с поисковиком, мб что-то можно получить путного

источник

17:12пожаловаться #3

YB

Yuri Baburov in Natural Language Processing

SancheZz Мов

Знаю что ребята юзали для токсика гпт эмбеддинги)

у gpt эмбеддинги обычно похуже после fine-tuning. но может им это как-то помогало в их конкретной задаче.

источник

17:12пожаловаться #4

SМ

SancheZz Мов in Natural Language Processing

David Dale

Яндекс недавно писал, как они берт в поиск воткнули
https://habr.com/ru/company/yandex/blog/529658/

Хабр

Трансформеры в Поиске: как Яндекс применил тяжёлые нейросети для поиска по смыслу

Привет, Хабр. Меня зовут Саша Готманов, я руковожу группой нейросетевых технологий в поиске Яндекса. На YaC 2020 мы впервые рассказали о внедрении трансформера —...

Четкая статья! Вот видео с выступлением https://youtu.be/M0-UGNFa0PA

YouTube

Как Яндекс решает задачу ранжирования с помощью больших нейросетей – Александр Готманов, Яндекс

Слайды: https://yadi.sk/i/NANb8OrztWDkeg

Поговорим о том, почему ранжирование Яндекса всё больше определяется нейросетями: как они учатся предсказывать экспертные оценки, почему хорошие оценки стоят дорого и их мало. Углубимся в историю: посмотрим на нейросети в ретроспективе и сравним их по качеству, уделив особое внимание разным вариантам трансформеров. Расскажу (с погружением в технологии), как мы создавали свой трансформер для ранжирования, который кардинально изменил работу алгоритма, и немного о будущем: сверхбольших моделях, генеративных моделях и др.

О спикере:
Александр Готманов окончил ВМК МГУ в 2005 году. После университета — разработчик-исследователь в московском отделении Intel. С 2014-го занимается качеством поиска в Яндексе. Руководитель группы нейросетевых технологий.

источник

17:13пожаловаться #5

DD

David Dale in Natural Language Processing

Peter Vanin

Да, верное замечание. Генератор текста в моем предположении как хилый способ брать наиндексированное и выдавать кратко, без издержек. Понятно что лишний слой, но если провести поиск как "общение" с поисковиком, мб что-то можно получить путного

Яндекс.Алиса сейчас постепенно в этом направлении ползёт) Некоторая доля её ответов на фактоидные запросы как раз генерируется gpt-подобной нейронкой на основе поисковой выдачи.

источник

17:14пожаловаться #6

PV

Peter Vanin in Natural Language Processing

Вот, идея достаточно на поверхности, чтобы гиганты заинтересовались подобным))
Хотя в моем случае больше сторона "а возможно ли selfhosted", и полагаю что ответ да

источник

17:15пожаловаться #7

AK

Anton K. in Natural Language Processing

Peter Vanin

Да, верное замечание. Генератор текста в моем предположении как хилый способ брать наиндексированное и выдавать кратко, без издержек. Понятно что лишний слой, но если провести поиск как "общение" с поисковиком, мб что-то можно получить путного

тоже думаем в том направлении, что пробелма поиска именно в том, что он по одной фразе должен понять контекст. хотя контекст лучше понять из диалога. у вас какая задача в целом?

источник

17:15пожаловаться #8

DD

David Dale in Natural Language Processing

Peter Vanin

Вот, идея достаточно на поверхности, чтобы гиганты заинтересовались подобным))
Хотя в моем случае больше сторона "а возможно ли selfhosted", и полагаю что ответ да

Selfhosted поисковый индекс - нуууу только если у вас очень много ресурсов, либо если вы ищете по достаточно ограниченному числу документов.
Selfhosted суммаризатор поисковой выдачи - изи, если у вас есть размеченные данные для его обучения.

источник

17:16пожаловаться #9

PV

Peter Vanin in Natural Language Processing

Никакой пока, просто гипотетический интерес. Под это нужны свободные умные лапки и много железа, так что фантазии. Скажем если набирать самостоятельно информацию с вручную отобранных сайтов. Типа опеннет, хабр, либген и прочее. И потом хранить для локального использования. Целиком наиндексированное, а не гиперссылками на источники

источник

17:20пожаловаться #10

AK

Anton Kolonin in Natural Language Processing

Если кого-то интересует "нейросимвольный NLP", вот тут я делюсь опытом нескольких проектов: https://www.youtube.com/watch?v=8RiNxYEk4D0

YouTube

Интерпретируемая обработка текстов на естественном языке - Антон Колонин, Архипелаг 20.35, 2020

Интерпретируемая обработка текстов на естественном языке - лекция Антона Колонина для Архипелага 20.35 НТИ АСИ, 9 ноября 2020
http://aigents.com/papers/2020/InterpretableLanguageProcessing2020.pdf

источник

17:56пожаловаться #11

DD

David Dale in Natural Language Processing

Anton Kolonin

Если кого-то интересует "нейросимвольный NLP", вот тут я делюсь опытом нескольких проектов: https://www.youtube.com/watch?v=8RiNxYEk4D0

YouTube

Интерпретируемая обработка текстов на естественном языке - Антон Колонин, Архипелаг 20.35, 2020

Интерпретируемая обработка текстов на естественном языке - лекция Антона Колонина для Архипелага 20.35 НТИ АСИ, 9 ноября 2020
http://aigents.com/papers/2020/InterpretableLanguageProcessing2020.pdf

А в текстовой форме есть?
Статьи, посты и т.п.

источник

17:59пожаловаться #12

AK

Anton Kolonin in Natural Language Processing

David Dale

А в текстовой форме есть?
Статьи, посты и т.п.

Ссылки на статьи есть в слайдах http://aigents.com/papers/2020/InterpretableLanguageProcessing2020.pdf

источник

18:00пожаловаться #13

DD

David Dale in Natural Language Processing

Anton Kolonin

Ссылки на статьи есть в слайдах http://aigents.com/papers/2020/InterpretableLanguageProcessing2020.pdf

О, спасибище!

источник

18:01пожаловаться #14

ЕТ

Евгений Томилов... in Natural Language Processing

Поясните, пожалуйста. Вот, есть у меня два набора имён: эльфийские, людоящеров и людские))0) Они сильно различаются на мой взгляд.
И я хочу сделать три модели, которые будут генерировать имя, похожее на один из трёх наборов.
Вопросы:
1) Я так понимаю, тут не особо подойдёт решение в лоб через цепи Маркова, потому что разная длина имён и всё такое;
2) Может, можно обойтись одной моделью?

источник

19:16пожаловаться #15

DD

David Dale in Natural Language Processing

Через цепи Маркова или посимвольную нейросетку вполне может получиться. Разница в длине имён тут не играет роли, ведь "конец имени" - такой же символ, как и все остальные, и модель точно так же может научиться его генерировать.
Думаю, что сделать три модели будет проще, чем одну модель, описывающую все три распределения.

источник

19:20пожаловаться #16

AA

Alexandra A in Natural Language Processing

Помню в курсе Andrew Ng по deep learning была похожая домашка - нужно было генерировать названия динозавров. Но там что-то с нейросетью было

источник

19:35пожаловаться #17

ЕТ

Евгений Томилов... in Natural Language Processing

Спасибо за направление!

источник

19:37пожаловаться #18

A

Artem in Natural Language Processing

Евгений Томилов

Поясните, пожалуйста. Вот, есть у меня два набора имён: эльфийские, людоящеров и людские))0) Они сильно различаются на мой взгляд.
И я хочу сделать три модели, которые будут генерировать имя, похожее на один из трёх наборов.
Вопросы:
1) Я так понимаю, тут не особо подойдёт решение в лоб через цепи Маркова, потому что разная длина имён и всё такое;
2) Может, можно обойтись одной моделью?

Можно заморочиться и описать по набору фонологических правил для каждого из "языков", а потом по нужному набору генерировать новые слова
Как здесь: https://www.zompist.com/gen.html

источник

19:38пожаловаться #19

ЕТ

Евгений Томилов... in Natural Language Processing

Artem

Можно заморочиться и описать по набору фонологических правил для каждого из "языков", а потом по нужному набору генерировать новые слова
Как здесь: https://www.zompist.com/gen.html

А вот это уже интереснее!

источник

19:39пожаловаться #20