Size: a a a

Natural Language Processing

2020 August 28

AE

Anton Eryomin in Natural Language Processing
Коллеги, добрый вечер! А как вам специализация на курсере https://www.coursera.org/specializations/natural-language-processing#courses она правда еще не закончена, но стоит ли тратить на неё время ?
источник

ER

Ed Ryzhov in Natural Language Processing
Вопрос от совсем ленивых: есть какое-то очень высокоуровневое АПИ, чтобы замапить одни русские фразы на другие?
Чтобы вообще не разбираться, а просто загрузить текстовый файлик и получить результат?
Что-то вроде ML.NET builder, но с уклоном в русский язык.
источник

OS

Oleg Serikov in Natural Language Processing
Ed Ryzhov
Вопрос от совсем ленивых: есть какое-то очень высокоуровневое АПИ, чтобы замапить одни русские фразы на другие?
Чтобы вообще не разбираться, а просто загрузить текстовый файлик и получить результат?
Что-то вроде ML.NET builder, но с уклоном в русский язык.
всм выучить мапинг на основ текстового файлика или что?
источник

ER

Ed Ryzhov in Natural Language Processing
Не знаю, мне надо условно "если на входе фраза А, выдать на выходе фразу Б", а остальное меня не интересует.
источник

OS

Oleg Serikov in Natural Language Processing
Для меня звучит так, будто это апи называется оператором ветвления )
источник

ER

Ed Ryzhov in Natural Language Processing
Если фраз под миллион, тогда слишком много ифов писать. В общем, задачу можно свести к переводу "русский на русский", в принципе. Можно поэкспериментировать с BERT, но хочется готовое решение, потому что это pet-project.
источник

VF

Vadim Fomin in Natural Language Processing
Oleg Serikov
Для меня звучит так, будто это апи называется оператором ветвления )
Нет, я думаю, речь о сектусеке
источник

OS

Oleg Serikov in Natural Language Processing
мне казалось удобным выучивать сектусеки в одну строку с помощью opennmt


понятно, наверное, что речь не о наивном реплейсе, но было написано как о наивном реплейсе и хотелось зацепиться)
источник

C

Constantin in Natural Language Processing
Как обычно разбираются с сокращениями типа "соц. помощь", "мат. поддержка", "акад. Гончаров" и т.д.? Просто по словарю сокращений заменяют?
источник

YB

Yuri Baburov in Natural Language Processing
Constantin
Как обычно разбираются с сокращениями типа "соц. помощь", "мат. поддержка", "акад. Гончаров" и т.д.? Просто по словарю сокращений заменяют?
не зная словаря, их не починишь. но можно попробовать намайнить такие сокращения, найдя по паттерну "соц* помощь" в статистике фраз "социальная помощь" на первом месте по частоте.
источник

NC

Nikolay Chudinov in Natural Language Processing
Где взять библиотеку, со всеми городами. При разборе текста если будет вхождение наименования города, чтоб понять что данное слово это город в РФ к примеру
источник

NC

Nikolay Chudinov in Natural Language Processing
Или при разборе пользовательского запроса «купить телефон в Уфе» понимать что есть город Уфа
источник

M

Mishanya in Natural Language Processing
Constantin
Как обычно разбираются с сокращениями типа "соц. помощь", "мат. поддержка", "акад. Гончаров" и т.д.? Просто по словарю сокращений заменяют?
Не очень понятно зачем с ними разбираться, но, но словарь сокр. есть, на wiktionary, например, про соцпомощь есть и просто соц. :  https://ru.wiktionary.org/w/index.php?title=%D0%9A%D0%B0%D1%82%D0%B5%D0%B3%D0%BE%D1%80%D0%B8%D1%8F:%D0%90%D0%B1%D0%B1%D1%80%D0%B5%D0%B2%D0%B8%D0%B0%D1%82%D1%83%D1%80%D1%8B/ru&pagefrom=%D0%A1%D0%9A%D0%9F%0A%D0%A1%D0%9A%D0%9F#mw-pages
источник

SS

Sergey Shulga in Natural Language Processing
Народ, нужен совет по задаче классификации на несколько классов: на вход приходит короткий запрос (1-2 предложения). Ему нужно присвоить один/несколько классов. Всего желаемых классов ~20, есть датасет  без таргетов и скорее всего с дисбалансом классов. Для классификации хочу tfidf и svd, но не понимаю, как разобрать исходный датасет. Кластеризация и тематическое моделирование?
источник

DD

David Dale in Natural Language Processing
Sergey Shulga
Народ, нужен совет по задаче классификации на несколько классов: на вход приходит короткий запрос (1-2 предложения). Ему нужно присвоить один/несколько классов. Всего желаемых классов ~20, есть датасет  без таргетов и скорее всего с дисбалансом классов. Для классификации хочу tfidf и svd, но не понимаю, как разобрать исходный датасет. Кластеризация и тематическое моделирование?
Надёжнее всего будет разметить примеры вручную)
Например, разметить какое-то количество примеров самому, а потом, если лень продолжать, сделать задание на Толоке с перекрытием.
источник

YB

Yuri Baburov in Natural Language Processing
Nikolay Chudinov
Где взять библиотеку, со всеми городами. При разборе текста если будет вхождение наименования города, чтоб понять что данное слово это город в РФ к примеру
источник

SS

Sergey Shulga in Natural Language Processing
David Dale
Надёжнее всего будет разметить примеры вручную)
Например, разметить какое-то количество примеров самому, а потом, если лень продолжать, сделать задание на Толоке с перекрытием.
Был вариант сделать ключевики с весами на каждый класс и обойтись без разбора датасета.
источник

МП

Михаил Притугин... in Natural Language Processing
Sergey Shulga
Народ, нужен совет по задаче классификации на несколько классов: на вход приходит короткий запрос (1-2 предложения). Ему нужно присвоить один/несколько классов. Всего желаемых классов ~20, есть датасет  без таргетов и скорее всего с дисбалансом классов. Для классификации хочу tfidf и svd, но не понимаю, как разобрать исходный датасет. Кластеризация и тематическое моделирование?
Занимался похожей задачей на хакатоне от Сбербанка
Пробовали регулярками разметить датасет, после чего доразметить руками
источник

YB

Yuri Baburov in Natural Language Processing
Nikolay Chudinov
Или при разборе пользовательского запроса «купить телефон в Уфе» понимать что есть город Уфа
но самое сложное — не спутать город Владимир с именем Владимир (Путин), когда работаешь просто по словарю.
источник

v

viktor in Natural Language Processing
а для всего мира не знаешь годный свежий датасет?
источник