Size: a a a

Natural Language Processing

2020 October 21

Lyubov К. in Natural Language Processing
Elena
да, интересно, какая цель конечная. Распознавать навыки?
Да прошёл/не прошёл. Конечная цель - рекомендовать hr человека их тех резюме, которые нашёл
источник

E

Elena in Natural Language Processing
если нужен анализ, можно кластеринг сделать, или какой-нибудь рейтинг похожести
источник

Lyubov К. in Natural Language Processing
Мне бы их прочесть сначала)
источник

E

Elena in Natural Language Processing
значит надо руками отобрать равное количество резюме тех, кто прошли отбор и тех, кого отсеяли
источник

E

Elena in Natural Language Processing
прочесть - python
источник

E

Elena in Natural Language Processing
пайтон для всего!
источник

DK

Denis Kirjanov in Natural Language Processing
Lyubov К.
Часть резюме тех кого отобрали на собеседование, часть тех кого приняли. Нужно их них наиболее частые слова выбрать и в целом проанализировать
ну тогда проблемы вроде нет )
источник

E

Elena in Natural Language Processing
чтобы классификатор более или менее научился чему-то надо по 5 тысяч резюме с каждой стороны
источник

E

Elena in Natural Language Processing
чем больше, тем лучше, конечно
источник

E

Elena in Natural Language Processing
но если датасет меньше 10 тысяч, то в реальной жизни непонятно, как он будет работать
источник

E

Elena in Natural Language Processing
и для нейросети это мало
источник

MK

Max Kuznetsov in Natural Language Processing
Колллеги, а есть какой-то быстрый способ из фактов yargy вытащить спаны (координаты в тексте)?
источник

NK

Nikolay Karelin in Natural Language Processing
Elena
чтобы классификатор более или менее научился чему-то надо по 5 тысяч резюме с каждой стороны
Ну, я бы не сказал. Тем более. что на реальных задачах классика часто работает лучше нейросетей 😱
источник

E

Elena in Natural Language Processing
Смотря какие задачи
источник

E

Elena in Natural Language Processing
Я хотела только сказать, что с маленьким датасетом мало смысла заморачиваться
источник

SS

Sergey Sikorskiy in Natural Language Processing
Katya Artemova
Проблема с ударениями в том, что они зависят от контекста
Еще одна маленькая проблема - насколько качественная информация в самом Викисловаре.
Туда загружена какая-то версия Зализняка, словарь Тихонова, если не ошибаюсь, и, возможно, еще что-то.
Качество всего этого дела весьма сомнительно. Достаточно много там загружено человеком из МГТУ им. Баумана, т.е. не лингвистом.
На текущий момент наиболее качественным выглядит odict.
источник

G

Gwyneth in Natural Language Processing
Max Kuznetsov
Колллеги, а есть какой-то быстрый способ из фактов yargy вытащить спаны (координаты в тексте)?
match.span и у них есть start и stop
источник

MK

Max Kuznetsov in Natural Language Processing
Gwyneth
match.span и у них есть start и stop
спасибо, спан есть у факта, но не у атрибута получается.
источник

MK

Max Kuznetsov in Natural Language Processing
Max Kuznetsov
спасибо, спан есть у факта, но не у атрибута получается.
наверное обойду созданием для каждого атрибута собственного факта
источник

bx

berkut x in Natural Language Processing
Ilkin Ramazanov
Ребят привет. Мне интересно есть ли бот который общается только с помощью смайликов/стикеров/гифок?
Есть нечто похожее - @saysebot, который может ответить на предложение видео-цитатой из сериала(English only).
Для примера можно попробовать ему написать в личку:
what is best song?
What film do you like?
which sauce is the best?
rick What film do you like?(фильтр по сериалу рик и морти)
rick best serial
friends when to buy bitcoin?(искать только по сериалу друзья)
E=mc2
Я вдохновлялся TalkToBooks и делаю аналог для сериалов. Может кто-то захочет присоединиться или подскажет направление(пишите в личку мне)...
источник