Size: a a a

Natural Language Processing

2020 August 31

D•

Dan • Captain in Natural Language Processing
Денис Бессонов
Посоветуйте ещё чаты в телеграмме по nlp плз
источник

ДБ

Денис Бессонов... in Natural Language Processing
Спасибо!
источник

Lyubov К. in Natural Language Processing
Всем привет! Нужно разбить датасет с текстами на кластеры по причине отказа в оказании услуги. Могли бы вы порекомендовать как это лучше сделать?
источник

DP

Defragmented Panda in Natural Language Processing
Lyubov К.
Всем привет! Нужно разбить датасет с текстами на кластеры по причине отказа в оказании услуги. Могли бы вы порекомендовать как это лучше сделать?
собери кучу данных о том, как это делают люди. 10к примеров набери, типа текст + причина отказа.

когда это будет - натренировать классификатор. можно взять любую обученную на нужном языке нейронку. переводы, продолжение текста - все такое скорее всего будет работать лучше чем тренировать с нуля.

в конечном итоге тебе нужен будет tensorflow и последний (полносвязанный) слой в котором столько нейронов, сколько у тебя классов. и брать тот нейрон что активен максимально.
источник

E

Elena in Natural Language Processing
ну понятно когда есть уже ручная разметка, то легко с сетями. можно вообще Берт взять и не надо с тензорфлоу мучаться
источник
2020 September 01

bx

berkut x in Natural Language Processing
Привет всем, подскажите куда копнуть:
Есть 1млн коротких строк англ языка(допустим из библии).
Юзер начинает вводить строку и надо подобрать наиболее подходящую по смыслу...
Я попробовал fuzzySearch, но оно очень долго работает(на ноуте), 14с получилось. Хочется реалтайма, да под нагрузкой)
Может сетка какая-то есть для такого?
источник

DD

David Dale in Natural Language Processing
berkut x
Привет всем, подскажите куда копнуть:
Есть 1млн коротких строк англ языка(допустим из библии).
Юзер начинает вводить строку и надо подобрать наиболее подходящую по смыслу...
Я попробовал fuzzySearch, но оно очень долго работает(на ноуте), 14с получилось. Хочется реалтайма, да под нагрузкой)
Может сетка какая-то есть для такого?
Сетки - это, как правило, само по себе тоже очень медленно)
Тебе нужен хороший оптимизированный поисковый индекс. Elasticsearch либо что-нибудь более специфическое.
источник

AW

Andrew Witwicki in Natural Language Processing
может чтото из рода векторизации датасета и входа, и поиска максимально похожего по вектору в датасете?
источник

DD

David Dale in Natural Language Processing
Если хочется тонкой семантики, можно каждую строку закодировать sentence encoder'ом (USE или LASER, например) в вектор, и дальше делать приближённый поиск ближайших соседей в пространстве этих векторов. Такой поиск быстро делает, например, библиотека faiss.
источник

bx

berkut x in Natural Language Processing
Мне на гпу просто приоритетней, ибо есть мощные видяхи
источник

DD

David Dale in Natural Language Processing
berkut x
Мне на гпу просто приоритетней, ибо есть мощные видяхи
Энкодер можешь на гпу запускать, а про approximate nearest neighbor search на гпу я не слышал, но можно попробовать погуглить.
источник

FF

Futorio Franklin in Natural Language Processing
David Dale
Энкодер можешь на гпу запускать, а про approximate nearest neighbor search на гпу я не слышал, но можно попробовать погуглить.
так фаисс умеет на гпу работать
источник

SS

Sergey Shulga in Natural Language Processing
Futorio Franklin
так фаисс умеет на гпу работать
Умеет, но я устал в свое время с бубном танцевать, чтобы все полетело.
источник

FF

Futorio Franklin in Natural Language Processing
Sergey Shulga
Умеет, но я устал в свое время с бубном танцевать, чтобы все полетело.
В итоге полетело?
источник

o

oldysty in Natural Language Processing
Всем привет. Это нормально, что модель из transformers неустойчиво обучается? Изменения от запуска к запуску обучения на пять сотых процента. Для меня то значительно, потому что я таких результатов тюнингом данным добиваюсь(а может и не добиваюсь). Подскажите, где может быть рандом. Сплит зафиксирован, оптимайзер AdamW, шедулер linear_schedule_with_warmup
источник

SS

Sergey Shulga in Natural Language Processing
Futorio Franklin
В итоге полетело?
Да
источник

М

Марк in Natural Language Processing
Andrew Witwicki
может чтото из рода векторизации датасета и входа, и поиска максимально похожего по вектору в датасете?
Elasticsearch уже так может. По крайне мере амазоновский.
https://aws.amazon.com/ru/about-aws/whats-new/2020/07/cosine-similarity-support-in-amazon-elasticsearch-service/

На сколько я знаю и базовая реализация это тоже умеет.
источник

ЕТ

Евгений Томилов... in Natural Language Processing
Ворвусь со старым вопросом, но не может ли кто-нибудь подсказать ноутбуки или статьи, где на пальцах показывают, как делают с нуля POS-теггер и лемматизатор? Желательно на Питоне, но сойдёт и R.
Хочу всё же сделать руками их. Имею пока что корпус от НКРЯ, скинули мне всё же его.
источник

YB

Yuri Baburov in Natural Language Processing
Евгений Томилов
Ворвусь со старым вопросом, но не может ли кто-нибудь подсказать ноутбуки или статьи, где на пальцах показывают, как делают с нуля POS-теггер и лемматизатор? Желательно на Питоне, но сойдёт и R.
Хочу всё же сделать руками их. Имею пока что корпус от НКРЯ, скинули мне всё же его.
for x in range(len(words)):
    pos = get_pos(words[x-3: x+4])

где get_pos — просто классификатор из этих слов на 20 классов (частей речи).
с лемматизатором посложнее (там набор классов на выходе — возможные леммы), но это тоже классификатор.
источник

ЕТ

Евгений Томилов... in Natural Language Processing
Yuri Baburov
for x in range(len(words)):
    pos = get_pos(words[x-3: x+4])

где get_pos — просто классификатор из этих слов на 20 классов (частей речи).
с лемматизатором посложнее (там набор классов на выходе — возможные леммы), но это тоже классификатор.
Предположим, я кидаю в этот классификатор слово, которое не встречалось в корпусе. =) И всё. Мне советовали посмотреть FastText в том числе.
источник