Size: a a a

Natural Language Processing

2021 July 20

d

dePuff in Natural Language Processing
На каждое слово по измерению слишком бесполезно
источник

DP

Defragmented Panda in Natural Language Processing
Спасибо

Есть примерная оценка точности для каждого варианта?

Я вижу так:
100к - 99%
10к - 98%
1к - 95%
100 - 85%
10 - 50%
источник

t

toriningen in Natural Language Processing
а если наоборот, начать с OHE и последовательными проекциями убирать по одному измерению за раз?
источник

IG

Ilya Gusev in Natural Language Processing
источник

d

dePuff in Natural Language Processing
Не попадалось, подождём коллег
источник

DZ

Dmitry Zmitrovich in Natural Language Processing
0
источник

IG

Ilya Gusev in Natural Language Processing
источник

DP

Defragmented Panda in Natural Language Processing
Очень-очень интересно, спасибо
источник

DP

Defragmented Panda in Natural Language Processing
источник

DP

Defragmented Panda in Natural Language Processing
7 бит хватит всем )
источник

М

Марк in Natural Language Processing
Всем привет.
На сколько я помню, тут вакансии постить не запрещается.

Ищу себе в команду 3х DS. Много NLP задачек, но не только они. Ниже в сообщении подробное описание.

Пишите, не стесняйтесь, даже если не совсем подходите.

Сегодня постил эту вакансию в ODS, сорян за повтор, но может кто пропустил.
источник

М

Марк in Natural Language Processing
Компания: Работа.ру
Позиция: Middle / Senior Data Scientist
Город: Москва, Санкт-Петербург или удалёнка.
Вилка:
Middle – 130-200 т.р. на руки
Senior  – 200-250 т.р. на руки (готовы обсуждать больше по результатам тех интервью)

Вам предстоит заниматься:

- разработкой моделей для решения задач классификации резюме и вакансий;
- разработкой моделей для построения системы автомодерации;
- решением задач оптимизации расходов на маркетинг и - построением моделей realtime-управления маркетинговыми кампаниями;
- построением системы рекомендаций для соискателей и работодателей;
- созданием моделей прогнозирования ключевых
-показателей компании (модели регрессии и факторный анализ);
- построением моделей поведения пользователей,
- прогнозированием действий пользователей;
- построением моделей прогноза эластичности спроса и предложения;
- созданием прототипов моделей и переносом их в промышленную эксплуатацию;
- документированием разработанных алгоритмов и презентацией результатов.


Мы ожидаем от вас:

- опыт работы в области DS + ML от 2 лет;
- знание computer science, матстата, ML, DL;
- уверенный навык работы с аналитическими пакетами (numpy, scipy, pandas), фреймворками ML (sklearn, xgboost/catboost/lightgbm) и DL (tensorflow/keras/pytorch );
- опыт работы с Apache NiFi;
- наличие доведенных до прода моделей и желание рассказать о них.


Мы работаем на следующем стеке:

   Python, Scala;
   Airflow, Docker, Git, Kubernetes;
   PostgreSQL, Clickhouse;
   RabbitMQ, Elasticsearch;
   Big Data - Hadoop (Hive, hdfs, Spark, Apache NiFi).


Мы предлагаем:

- Удобство: работа в офисе или удаленно.
- Гибкий график: вы можете сами договориться со своей командой о времени начала и окончания рабочего дня — для нас важен результат, а не затраченное время.
- Заботу о здоровье: мы оформляем каждому сотруднику в Москве и Санкт-Петербурге после испытательного срока расширенный полис ДМС со стоматологией.
- Специальные предложения для наших сотрудников: льготная ипотека в Сбере, скидки на фитнес, изучение английского языка, бронирование отелей и пр.
- Помощь с переездом для соискателей из других городов.


Вопросы и резюме:
Мне в личку или на почту m.panenko@rabota.ru
Дарья (recruiter) - :telegram: @Dasha_Gratz, почта: dr.frolova@rabota.ru
источник

SS

Sergey Shulga in Natural Language Processing
А насколько я помню, этот чат не для этого.
источник

RP

Rodion Proskuryakov in Natural Language Processing
@shulga_sergey вроде в описании канала указано слово "вакансии")
источник

IG

Ilya Gusev in Natural Language Processing
В описании канала явно указано, что можно вакансии по одс гайдлайнам
источник

KL

Kir L in Natural Language Processing
внимание, странный вопрос.
априорно известно, что Наташа в части извлечения организаций ориентирована (работает лучше) на тексты размером с новость.
у нас тексты короче и мы ничего не переучиваем.
экспериментально удалось понять, что очень важно, чтобы название было написано с большой буквы, поэтому мы предварительно аугментировав текст до большего размера делаем все слова с большой буквы, что дает лишние неподходящие результаты, то есть по сути, мы таким подходом получили очень высокую полноту при отвратительной точности

у кого-то есть идеи, как провести Наташу, которая совсем не видит организацию в репликах типа "это курьер ламоды", но уже видит, если "это курьер компании Ламода"
источник

N

Natalia in Natural Language Processing
ну если что, она таким образом должна давать более высокую точность, потому что иначе есть риск, что наоборот будет видеть организации во всех подходящих существительных, это разве сильно лучше?
источник

KS

Konstantin Smith in Natural Language Processing
Если не Наташа и есть список этих организаций, то можно в Pullenti использовать возможность ExtOntology, загрузив в него организации, и тогда, в дополнение к стандартным алгоритмам выделения организаций, в тексте будут находиться организации по названия, причём и с маленькой буквы, и в разных падежах.
источник

N

Natalia in Natural Language Processing
а тут не упоминали разве более лёгкий deeppavlov? мб его тоже на всякий случай посмотреть и проверить, ловит он эти случаи или нет
источник

N

Natalia in Natural Language Processing
и посмотрите на лемму мб ещё, если можно сматчить потом со списком организаций
источник