Телеграмм чат группы natural_language

Когда речь заходит о деталях, тот не видя предмета обсуждения, вряд ли можно помочь советом, особенно когда надо идти достаточно "широким фронтом" используя несколько подходов, чтобы выбрать тот который работает, а если работают все, то самый эффективный.
А если в документах все стандартно и четко структурировано, то у вас могут и регулярки справится с задачей разбиения текста документа на соответствующие категории, все зависит от того, насколько корректно вы справитесь с извлечением текста из PDF.
Потом в следующий раз, выяснится еще какая-нить особенность в документах PDF присутствует и так далее...

источник

17:33пожаловаться #6

David Dale in Natural Language Processing

Современных вариантов я не находил, но ходят слухи, что где-то в ИППИ что-то похожее разрабатывают

источник

17:54пожаловаться #7

David Dale in Natural Language Processing

Впрочем, можно попробовать AMR-парсер портировать на русский.
Я бы в подобном проекте с удовольствием бы поучаствовал)

источник

17:55пожаловаться #8

cnstntn kndrtv in Natural Language Processing

Я за. Давай подумаем, с чего начать.
Датасета на английском. В AMR2.0 59 тысяч предложений, теоретически можно перевести их на русский, для этого и нужна связка токенов.
Модель у IBM вроде последняя sota - https://github.com/IBM/transition-amr-parser/.

GitHub

GitHub - IBM/transition-amr-parser: Transition-based parser for Abstract Meaning Representation (AMR) in Pytorch

Transition-based parser for Abstract Meaning Representation (AMR) in Pytorch - GitHub - IBM/transition-amr-parser: Transition-based parser for Abstract Meaning Representation (AMR) in Pytorch

источник

18:15пожаловаться #9

Konstantin Shitkov in Natural Language Processing

Задача текстовой сегментации. Можно с помощью BERT сравнивать соседние предложения по порогу, можно обучить расставлять абзацы на основе разметки, скармливая эмбеддинги предложений и разметку, показывающую, является ли предложение концом абзаца.

источник

18:25пожаловаться #10

2021 September 16

Dmitry Spodarets in Natural Language Processing

Всем привет!
Сегодня вечером вместе с Михаилом Рожковым из Iterative.ai будем говорить про DVC и переиспользование ML пайплайнов между проектами.
Присоединяйтесь - https://dataphoenix.info/webinar-re-usable-pipelines-for-ml-projects/

Data Phoenix

Webinar "Re-usable pipelines for ML projects with DVC"

Команда Data Phoenix Events приглашает всех, 16 сентября, на вебинар, который будет посвящен переиспользованию ML пайплайнов между проектами

источник

14:18пожаловаться #11

Arsen Plus in Natural Language Processing

Всем привет! Стоит задача получить хорошие векторы для текстов по определенной предметной области. Всего таких текстов около 40к, они в большинстве своем не длиннее двух коротких абзацев.

Ресурсов на разметку похожих и непохожих пар текстов особо нет. Я подумал, что можно использовать MultipleNegativesRankingLoss, а позитивные пары нагенерить переводом туда-обратно моделями для пары-тройки наиболее употребительных языков.

Самый простой способ брать негативные примеры - дергать случайно из выборки. Но есть опасения, что в негативные попадут похожие примеры.

Подскажите, пожалуйста, существует ли какой-то более продвинутый способ брать негативные примеры? Например, те, которые слишком близко по BoW-like векторам. Или какой-то кардинально другой способ потюнить векторы в условиях отсутствия внятной разметки (типа TSDAE)?

источник

18:05пожаловаться #12

David Dale in Natural Language Processing

Если в негативные при случайном дёргании и попадут похожие примеры, их доля будет небольшой, и обучение они не слишком попортят.
Крутые sentence encoder'ы типа LaBSE ровно так и обучают, со случайными отрицательными примерами и большим батчом.

источник

18:14пожаловаться #13

Arsen Plus in Natural Language Processing

Давид, спасибо!

источник

18:14пожаловаться #14

dePuff in Natural Language Processing

А вектора для чего будут использоваться? Схожесть текстов мерить?

источник

18:16пожаловаться #15

Arsen Plus in Natural Language Processing

Ага

источник

18:18пожаловаться #16

dePuff in Natural Language Processing

Есть тогда трюк без перевода. Недавно прямо зашёл на подобной задаче.

Тексты на две части делить. И приближать вектора половинок, а негативные - случайные, как и задумывалось.

источник

18:19пожаловаться #17

Arsen Plus in Natural Language Processing

Хм, интересная идея, спасибо! :)

источник

18:20пожаловаться #18

Valera Sarapas in Natural Language Processing

Добрый день,
есть задача классификации коротких предложений. Но модели работает крайне плохо т.к. очень мало информации для обучения. А еще доступна обратная связь от клиента, где он поясняет почему в конкретном случае классификация неверная.
Вопрос: Как можно использовать (внедрить в модель) обратную связь от клиента?

источник

18:33пожаловаться #19

Alexander Fedorenko in Natural Language Processing

Используйте как разметку)
Но если инфы мало, то вряд ли спасет
Используйте предобученные, если вы вдруг с нуля свое обучение строите

источник

18:55пожаловаться #20