Size: a a a

Natural Language Processing

2021 September 15

DD

David Dale in Natural Language Processing
Есть на huggingface готовые нейронки для перевода.
В этом посте есть пример использования: https://t.me/izolenta_mebiusa/159
источник

ck

cnstntn kndrtv in Natural Language Processing
Спасибо. Перевод вроде понятно, а как слова связать? Чтобы Cat==Кошка.
источник

DD

David Dale in Natural Language Processing
Я пару месяцев назад показывал пример, как можно примерно связку вычислить.
https://t.me/natural_language_processing/27550
источник

ck

cnstntn kndrtv in Natural Language Processing
Спасибо
источник

ck

cnstntn kndrtv in Natural Language Processing
А есть ли аналоги AMR (abstract meaning representation) для русского?
источник

AF

Alexander Fedorenko in Natural Language Processing
Когда речь заходит о деталях, тот не видя предмета обсуждения, вряд ли можно помочь советом, особенно когда надо идти достаточно "широким фронтом" используя несколько подходов, чтобы выбрать тот который работает, а если работают все, то самый эффективный.
А если  в документах все стандартно и четко структурировано, то у вас могут и регулярки справится с задачей разбиения текста документа на соответствующие категории, все зависит от того, насколько корректно вы справитесь с извлечением текста из PDF.
Потом в следующий раз, выяснится еще какая-нить особенность в документах PDF присутствует и так далее...
источник

DD

David Dale in Natural Language Processing
Современных вариантов я не находил, но ходят слухи, что где-то в ИППИ что-то похожее разрабатывают
источник

DD

David Dale in Natural Language Processing
Впрочем, можно попробовать AMR-парсер портировать на русский.
Я бы в подобном проекте с удовольствием бы поучаствовал)
источник

ck

cnstntn kndrtv in Natural Language Processing
Я за. Давай подумаем, с чего начать.
Датасета на английском. В AMR2.0 59 тысяч предложений, теоретически можно перевести их на русский, для этого и нужна связка токенов.
Модель у IBM вроде последняя sota - https://github.com/IBM/transition-amr-parser/.
источник

KS

Konstantin Shitkov in Natural Language Processing
Задача текстовой сегментации. Можно с помощью BERT сравнивать соседние предложения по порогу, можно обучить расставлять абзацы на основе разметки, скармливая эмбеддинги предложений и разметку, показывающую, является ли предложение концом абзаца.
источник
2021 September 16

DS

Dmitry Spodarets in Natural Language Processing
Всем привет!
Сегодня вечером вместе с Михаилом Рожковым из Iterative.ai будем говорить про DVC и переиспользование ML пайплайнов между проектами.
Присоединяйтесь - https://dataphoenix.info/webinar-re-usable-pipelines-for-ml-projects/
источник

AP

Arsen Plus in Natural Language Processing
Всем привет! Стоит задача получить хорошие векторы для текстов по определенной предметной области. Всего таких текстов около 40к, они в большинстве своем не длиннее двух коротких абзацев.

Ресурсов на разметку похожих и непохожих пар текстов особо нет. Я подумал, что можно использовать MultipleNegativesRankingLoss, а позитивные пары нагенерить переводом туда-обратно моделями для пары-тройки наиболее употребительных языков.

Самый простой способ брать негативные примеры - дергать случайно из выборки. Но есть опасения, что в негативные попадут похожие примеры.

Подскажите, пожалуйста, существует ли какой-то более продвинутый способ брать негативные примеры? Например, те, которые слишком близко по BoW-like векторам. Или какой-то кардинально другой способ потюнить векторы в условиях отсутствия внятной разметки (типа TSDAE)?
источник

DD

David Dale in Natural Language Processing
Если в негативные при случайном дёргании и попадут похожие примеры, их доля будет небольшой, и обучение они не слишком попортят.
Крутые sentence encoder'ы типа LaBSE ровно так и обучают, со случайными отрицательными примерами и большим батчом.
источник

AP

Arsen Plus in Natural Language Processing
Давид, спасибо!
источник

d

dePuff in Natural Language Processing
А вектора для чего будут использоваться? Схожесть текстов мерить?
источник

AP

Arsen Plus in Natural Language Processing
Ага
источник

d

dePuff in Natural Language Processing
Есть тогда трюк без перевода. Недавно прямо зашёл на подобной задаче.

Тексты на две части делить. И приближать вектора половинок, а негативные - случайные, как и задумывалось.
источник

AP

Arsen Plus in Natural Language Processing
Хм, интересная идея, спасибо! :)
источник

VS

Valera Sarapas in Natural Language Processing
Добрый день,
есть задача классификации коротких предложений. Но модели работает крайне плохо т.к. очень мало информации для обучения. А еще доступна обратная связь от клиента, где он поясняет почему в конкретном случае классификация неверная.
Вопрос: Как можно использовать (внедрить в модель) обратную связь от клиента?
источник

AF

Alexander Fedorenko in Natural Language Processing
Используйте как разметку)
Но если инфы мало, то вряд ли спасет
Используйте предобученные, если вы вдруг с нуля свое обучение строите
источник