Size: a a a

Natural Language Processing

2020 December 10

t

tkmwby in Natural Language Processing
Вы, Константин Blacksmith, маньяк, не иначе)))
источник

KS

Konstantin Smith in Natural Language Processing
tkmwby
Вы, Константин Blacksmith, маньяк, не иначе)))
Штирлиц был извращенец, поэтому во Вращенцах ему установили памятник.
источник

t

tkmwby in Natural Language Processing
ну праильно.
источник
2020 December 11

AE

Anton Eryomin in Natural Language Processing
Добрый день! Не подскажите где можно взять датасет, размеченный, ФИО и пол? Для решения задачи определения пола по ФИО
источник

IJ

IL Jah in Natural Language Processing
Anton Eryomin
Добрый день! Не подскажите где можно взять датасет, размеченный, ФИО и пол? Для решения задачи определения пола по ФИО
эти списки гуглятся легко, ключевые слова "список русских имен с полом", "список русских фамилий с полом", первое попавшееся, что нашел https://mydata.biz/ru/catalog/databases/names_db - но там качество имен какое то убогое, пару лет назад находил очень хорошего качества список, где автор нагрепал с российских соц сетей, помимо пола у него была ещё частота вхождения. Есть второй путь - если уже есть список фио - воспользоваться инструментами с гитхаба, например MlSexDetector или аналогом
источник

AE

Anton Eryomin in Natural Language Processing
Спасибо! в принципе я на все это натыкался, буду с этим работать.
источник

IJ

IL Jah in Natural Language Processing
Anton Eryomin
Спасибо! в принципе я на все это натыкался, буду с этим работать.
фамилии и отчества можно разметить по паттернам, понятно что фамилия с окончанием на -ян, -идце, -адзе и прочие армянские, грузинские - они все без признака пола, а в отчествах -ович =>М, -овна -> Ж и тп
источник

Р

Ромаша in Natural Language Processing
на гитхабе уже готовых пару либ видел
источник

AE

Anton Eryomin in Natural Language Processing
IL Jah
фамилии и отчества можно разметить по паттернам, понятно что фамилия с окончанием на -ян, -идце, -адзе и прочие армянские, грузинские - они все без признака пола, а в отчествах -ович =>М, -овна -> Ж и тп
+ еще всякие корейские фамилии типа Пак, Ким итд
источник

IK

Ivan Kargapoltsev in Natural Language Processing
Всем привет! Яндекс.Переводчик разыскивает аналитика-разработчика, желающего заниматься human eval'ом машинных переводов. Если коротко, то надо будет настраивать качественные проекты на Толоке (crowdsource-разметка), а также заворачивать это в автоматические процессы. У нас уже много сделано для главных языковых пар, но мы расширяемся и нужны ещё руки.

Официальное описание вакансии (продуктовой работы не будет, только если захотите)
https://yandex.ru/jobs/vacancies/analytics/analyst_perevodchik/
Зарплатная вилка 150-300 тысяч рублей.

Можно либо апплаится по ссылке, либо писать с вопросами мне или @mashashma
источник

МП

Михаил Притугин... in Natural Language Processing
Anton Eryomin
Добрый день! Не подскажите где можно взять датасет, размеченный, ФИО и пол? Для решения задачи определения пола по ФИО
Если нужен такой инструмент готовый - библиотека Петрович вроде называется.
Как минимум можно будет сравнивать решение ваше с готовым
источник

AM

Aleksandr Mikhailov ... in Natural Language Processing
с ФИО очень простые правила (например, закачивается на -ва, -вна), позволяют большую часть датасета разметить. а оставшиеся наверное надо машинным обучением добивать. всё сразу в модельку я бы подавать не стал
источник

v

vlad in Natural Language Processing
Anton Eryomin
Добрый день! Не подскажите где можно взять датасет, размеченный, ФИО и пол? Для решения задачи определения пола по ФИО
источник

AE

Anton Eryomin in Natural Language Processing
круто!!! спасибо огромное!
источник

AE

Anton Eryomin in Natural Language Processing
Aleksandr Mikhailov 😷
с ФИО очень простые правила (например, закачивается на -ва, -вна), позволяют большую часть датасета разметить. а оставшиеся наверное надо машинным обучением добивать. всё сразу в модельку я бы подавать не стал
кстати я вот взял большой датасет, который кто-то спарсил с соцсеточек и даже проверка на банальное вхождение дает покрытие около 90%
источник

AE

Anton Eryomin in Natural Language Processing
просто заказчик хочет близкое к 100 :)
источник

AE

Anton Eryomin in Natural Language Processing
в общем как обычно
источник

IS

I Sh in Natural Language Processing
Anton Eryomin
Добрый день! Не подскажите где можно взять датасет, размеченный, ФИО и пол? Для решения задачи определения пола по ФИО
источник

AE

Anton Eryomin in Natural Language Processing
какая-то там стремноватая разметка (((
источник

AE

Anton Eryomin in Natural Language Processing
Валентина Рыбалко
0
источник