Size: a a a

Natural Language Processing

2020 August 26

FF

Futorio Franklin in Natural Language Processing
Alex Wortega
Товарищи у кого то такое было?
Можно алгоритм агломеративной кластеризации попробовать c разными правилами объединения
источник

AW

Alex Wortega in Natural Language Processing
Товарищи а как вы сохраняете очищенные и токенизированные тексты? я когда выгрузил pd dataframe в csv я не смог обратно загрузить очищенную дату
источник

KL

Kir L in Natural Language Processing
в каком смысле не смог, напиши подробнее
источник

AW

Alex Wortega in Natural Language Processing
Ну он видит питон массив как строку
источник

AW

Alex Wortega in Natural Language Processing
Те как" ['пример']"
источник

DD

David Dale in Natural Language Processing
если хочешь питоновские объекты неизменными держать, сохраняй в pickle, дёшево и сердито
источник

AW

Alex Wortega in Natural Language Processing
Спасибо!
источник
2020 August 27

AW

Alex Wortega in Natural Language Processing
Смоделировал топики lsi шкой из новостей за несколько лет, бОльшая часть новостей грубо говоря шум?
выглядит так топик :
'0.189*"США" + 0.156*"Украины" + 0.090*"Он" + 0.090*"сказал" + 0.089*"Сирии" + 0.085*"отметил" + 0.083*"Путин" + 0.080*"Трамп" + 0.079*"Ранее" + 0.079*"Россия"'),
источник

AK

Anton Kolonin in Natural Language Processing
Сегодня - очередной еженедельный онлайн-семинар по "сильному ИИ" AKA AGI
источник

AK

Anton Kolonin in Natural Language Processing
Переслано от Anton Kolonin
Меньше чем через 12 часов встречаемся с Serge в AGI in Russian https://aigents.timepad.ru/event/1412596/
источник

YB

Yuri Baburov in Natural Language Processing
Alex Wortega
Смоделировал топики lsi шкой из новостей за несколько лет, бОльшая часть новостей грубо говоря шум?
выглядит так топик :
'0.189*"США" + 0.156*"Украины" + 0.090*"Он" + 0.090*"сказал" + 0.089*"Сирии" + 0.085*"отметил" + 0.083*"Путин" + 0.080*"Трамп" + 0.079*"Ранее" + 0.079*"Россия"'),
Нет, не шум, тема "внешняя политика". Но LSA алгоритмы приклеивают мелкие подтемы к основной большой теме, да и определение полученной темы плохо совпадает с человеческим. Всякие dbscan на эмбеддингах дают варианты получше, а supervised на имеющихся темах -- ещё лучше. В проекте "визуализация новостей" коллеги сначала делают supervised классификацию по крупным темам, а потом topic modelling с bigartm внутри темы. Тогда для их целей неплохо работает.
источник

AW

Alex Wortega in Natural Language Processing
Спасибо!
источник

JG

Jack Golokhov in Natural Language Processing
Здравствуйте. Есть подзадача понять является название улицы именем человека (проспект Маяковского) или просто образовано от него и таким не является (Кутузовский проспект). Ярги это легко делает:  для Маяковского list(addr_extractor.parser.findall(text))[3].tokens[2].forms[0] возвращает Form('маяковский', Grams(NOUN,Sgtm,Surn,anim,gent,masc,sing)), а для Кутузовского -  Form('кутузовский', Grams(ADJF,gent,masc,sing)) Где хранится атрибут Sgtm нашёл: grams.number. А вот где лежит так нужный мне Surn - ну никак. Можно взять из фрозен сета grams.values - но ведь должен же он где-то явно лежать.
источник

AB

Alexey Burnakov in Natural Language Processing
Alex Wortega
Смоделировал топики lsi шкой из новостей за несколько лет, бОльшая часть новостей грубо говоря шум?
выглядит так топик :
'0.189*"США" + 0.156*"Украины" + 0.090*"Он" + 0.090*"сказал" + 0.089*"Сирии" + 0.085*"отметил" + 0.083*"Путин" + 0.080*"Трамп" + 0.079*"Ранее" + 0.079*"Россия"'),
Можно попробовать сделать LSA+matrix rotation. На новостях темы выделяются довольно подробно. https://habr.com/ru/post/470618/ моя статья
источник

AW

Alex Wortega in Natural Language Processing
Спасибо
источник

AB

Alexey Burnakov in Natural Language Processing
прототип такой.
источник

YA

Yerlan Amanzholov in Natural Language Processing
Переслано от Yerlan Amanzholov
Всем привет! Начинаю делать чатбота для казахского языка и хотел узнать, как можно сделать open-domain чатбот без большого количества данных? Буду рад любым советам или ресурсам, может кто то уже делал подобное.
источник

SS

Sergey Shulga in Natural Language Processing
Yuri Baburov
Нет, не шум, тема "внешняя политика". Но LSA алгоритмы приклеивают мелкие подтемы к основной большой теме, да и определение полученной темы плохо совпадает с человеческим. Всякие dbscan на эмбеддингах дают варианты получше, а supervised на имеющихся темах -- ещё лучше. В проекте "визуализация новостей" коллеги сначала делают supervised классификацию по крупным темам, а потом topic modelling с bigartm внутри темы. Тогда для их целей неплохо работает.
А что за проект про визуализацию новостей?
источник

AW

Alex Wortega in Natural Language Processing
Sergey Shulga
А что за проект про визуализацию новостей?
Их много существует. И у ods и не только
источник

AW

Alex Wortega in Natural Language Processing
По сути если сможешь предсказать временной ряд новостей то много чего можно делать
источник