Телеграмм чат группы natural_language

собери кучу данных о том, как это делают люди. 10к примеров набери, типа текст + причина отказа.

когда это будет - натренировать классификатор. можно взять любую обученную на нужном языке нейронку. переводы, продолжение текста - все такое скорее всего будет работать лучше чем тренировать с нуля.

в конечном итоге тебе нужен будет tensorflow и последний (полносвязанный) слой в котором столько нейронов, сколько у тебя классов. и брать тот нейрон что активен максимально.

источник

18:44пожаловаться #4

E

Elena in Natural Language Processing

ну понятно когда есть уже ручная разметка, то легко с сетями. можно вообще Берт взять и не надо с тензорфлоу мучаться

источник

19:15пожаловаться #5

2020 September 01

bx

berkut x in Natural Language Processing

Привет всем, подскажите куда копнуть:
Есть 1млн коротких строк англ языка(допустим из библии).
Юзер начинает вводить строку и надо подобрать наиболее подходящую по смыслу...
Я попробовал fuzzySearch, но оно очень долго работает(на ноуте), 14с получилось. Хочется реалтайма, да под нагрузкой)
Может сетка какая-то есть для такого?

источник

09:16пожаловаться #6

DD

David Dale in Natural Language Processing

berkut x

Привет всем, подскажите куда копнуть:
Есть 1млн коротких строк англ языка(допустим из библии).
Юзер начинает вводить строку и надо подобрать наиболее подходящую по смыслу...
Я попробовал fuzzySearch, но оно очень долго работает(на ноуте), 14с получилось. Хочется реалтайма, да под нагрузкой)
Может сетка какая-то есть для такого?

Сетки - это, как правило, само по себе тоже очень медленно)
Тебе нужен хороший оптимизированный поисковый индекс. Elasticsearch либо что-нибудь более специфическое.

источник

09:18пожаловаться #7

AW

Andrew Witwicki in Natural Language Processing

может чтото из рода векторизации датасета и входа, и поиска максимально похожего по вектору в датасете?

источник

09:18пожаловаться #8

DD

David Dale in Natural Language Processing

Если хочется тонкой семантики, можно каждую строку закодировать sentence encoder'ом (USE или LASER, например) в вектор, и дальше делать приближённый поиск ближайших соседей в пространстве этих векторов. Такой поиск быстро делает, например, библиотека faiss.

источник

09:19пожаловаться #9

bx

berkut x in Natural Language Processing

Мне на гпу просто приоритетней, ибо есть мощные видяхи

источник

09:19пожаловаться #10

DD

David Dale in Natural Language Processing

berkut x

Мне на гпу просто приоритетней, ибо есть мощные видяхи

Энкодер можешь на гпу запускать, а про approximate nearest neighbor search на гпу я не слышал, но можно попробовать погуглить.

источник

09:20пожаловаться #11

FF

Futorio Franklin in Natural Language Processing

David Dale

Энкодер можешь на гпу запускать, а про approximate nearest neighbor search на гпу я не слышал, но можно попробовать погуглить.

так фаисс умеет на гпу работать

источник

09:21пожаловаться #12

SS

Sergey Shulga in Natural Language Processing

Futorio Franklin

так фаисс умеет на гпу работать

Умеет, но я устал в свое время с бубном танцевать, чтобы все полетело.

источник

09:38пожаловаться #13

FF

Futorio Franklin in Natural Language Processing

Sergey Shulga

Умеет, но я устал в свое время с бубном танцевать, чтобы все полетело.

В итоге полетело?

источник

09:42пожаловаться #14

o

oldysty in Natural Language Processing

Всем привет. Это нормально, что модель из transformers неустойчиво обучается? Изменения от запуска к запуску обучения на пять сотых процента. Для меня то значительно, потому что я таких результатов тюнингом данным добиваюсь(а может и не добиваюсь). Подскажите, где может быть рандом. Сплит зафиксирован, оптимайзер AdamW, шедулер linear_schedule_with_warmup

источник

11:20пожаловаться #15

SS

Sergey Shulga in Natural Language Processing

Futorio Franklin

В итоге полетело?

Да

источник

11:26пожаловаться #16

М

Марк in Natural Language Processing

Andrew Witwicki

может чтото из рода векторизации датасета и входа, и поиска максимально похожего по вектору в датасете?

Elasticsearch уже так может. По крайне мере амазоновский.
https://aws.amazon.com/ru/about-aws/whats-new/2020/07/cosine-similarity-support-in-amazon-elasticsearch-service/

На сколько я знаю и базовая реализация это тоже умеет.

Amazon Web Services, Inc.

источник

12:18пожаловаться #17

ЕТ

Евгений Томилов... in Natural Language Processing

Ворвусь со старым вопросом, но не может ли кто-нибудь подсказать ноутбуки или статьи, где на пальцах показывают, как делают с нуля POS-теггер и лемматизатор? Желательно на Питоне, но сойдёт и R.
Хочу всё же сделать руками их. Имею пока что корпус от НКРЯ, скинули мне всё же его.

источник

13:02пожаловаться #18

YB

Yuri Baburov in Natural Language Processing

Евгений Томилов

Ворвусь со старым вопросом, но не может ли кто-нибудь подсказать ноутбуки или статьи, где на пальцах показывают, как делают с нуля POS-теггер и лемматизатор? Желательно на Питоне, но сойдёт и R.
Хочу всё же сделать руками их. Имею пока что корпус от НКРЯ, скинули мне всё же его.

for x in range(len(words)):
pos = get_pos(words[x-3: x+4])

где get_pos — просто классификатор из этих слов на 20 классов (частей речи).
с лемматизатором посложнее (там набор классов на выходе — возможные леммы), но это тоже классификатор.

источник

13:10пожаловаться #19

ЕТ

Евгений Томилов... in Natural Language Processing

Yuri Baburov

for x in range(len(words)):
pos = get_pos(words[x-3: x+4])

где get_pos — просто классификатор из этих слов на 20 классов (частей речи).
с лемматизатором посложнее (там набор классов на выходе — возможные леммы), но это тоже классификатор.

Предположим, я кидаю в этот классификатор слово, которое не встречалось в корпусе. =) И всё. Мне советовали посмотреть FastText в том числе.

источник

13:14пожаловаться #20