Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2020 October 13

D•

Dan • Captain in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Открыт прием заявок на онлайн-хакатон OPEN SPACE от банка «Открытие» с призовым фондом 600 000 рублей 🚀

Тебя ждут три дня онлайн-хакатона с 23 по 25 октября👨🏻💻👩🏼💻
— 48 часов кодинга
— интересные треки
— обратная связь от экспертов на каждом этапе.  

🎯 Проверь свои силы и прими участие в разработке цифровых продуктов для банка:   openspace.codenrock.com
источник

D•

Dan • Captain in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Коллеги, осень перестаёт быть скучной: онлайн-хакатон ^^
источник

АК

Андрей Копылов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Arcady Balandin
Всё решается нейронками ©
Если подскажете, на какую тему погуглить, буду благодарен)
источник

AB

Arcady Balandin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
One hot encoding инпута, one hot encoding аутпута. Посередине что попало, например, перцептрон обычный. И слоев, слоев побольше!!!

Или ещё вариант: нанять чела и он сам все сделает
источник

АК

Андрей Копылов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Arcady Balandin
One hot encoding инпута, one hot encoding аутпута. Посередине что попало, например, перцептрон обычный. И слоев, слоев побольше!!!

Или ещё вариант: нанять чела и он сам все сделает
Спасибо 👍 пока вопрос не в реализации, а в изучении подходов)
источник

D•

Dan • Captain in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Андрей Копылов
Если подскажете, на какую тему погуглить, буду благодарен)
По запросу «классификация нейросетью» много материалов, и в целом материалы сходны по идее и подходу
источник

D•

Dan • Captain in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Где-то даже видел пошаговый алгоритм построения классификатора на основе нейросетей
источник

АК

Андрей Копылов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Dan • Captain
По запросу «классификация нейросетью» много материалов, и в целом материалы сходны по идее и подходу
Пока гугл меня направил в сторону fastText классификатора и LDA.. Это верное направление?)
источник

D•

Dan • Captain in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Андрей Копылов
Пока гугл меня направил в сторону fastText классификатора и LDA.. Это верное направление?)
Можно попробовать и fasttext
источник

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Андрей Копылов
Пока гугл меня направил в сторону fastText классификатора и LDA.. Это верное направление?)
Эти fasttext, lda, нейронки - это всё методы. Я бы начинал не с них, а с более конкретной постановки задачи: есть ли заранее известные категории? Есть ли размеченные данные? Как мы будем отличать плохую категоризацию от хорошей? По каким критериям будем вообще выбирать модель?
источник

АК

Андрей Копылов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
David Dale
Эти fasttext, lda, нейронки - это всё методы. Я бы начинал не с них, а с более конкретной постановки задачи: есть ли заранее известные категории? Есть ли размеченные данные? Как мы будем отличать плохую категоризацию от хорошей? По каким критериям будем вообще выбирать модель?
Заранее известных категорий нет, нужно кластеризовать по неизвестным.. Плюс вопрос, как решить проблему с синонимами, одно и то же может называться по разному.. И наоборот одно и то же слово может иметь разный смысл
источник

АК

Андрей Копылов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
С синонимами проблему решает Word2vec я так понимаю?
источник

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Андрей Копылов
С синонимами проблему решает Word2vec я так понимаю?
W2V, FT,  и все остальные предобученные нейронки, да
источник

D•

Dan • Captain in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Да
источник

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Андрей Копылов
Заранее известных категорий нет, нужно кластеризовать по неизвестным.. Плюс вопрос, как решить проблему с синонимами, одно и то же может называться по разному.. И наоборот одно и то же слово может иметь разный смысл
Я бы тебе предложил сначала дать людям вручную тегов понаписать, оценить качество этих ручных тегов, и придумать потом алгоритм оценки качества (и, возможно, разметить "золотую" тестовую выборку). И дальше перебирать 100500 разных подходов, уже обладая критерием их сравнения, которому ты доверяешь.
источник

АК

Андрей Копылов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
David Dale
Я бы тебе предложил сначала дать людям вручную тегов понаписать, оценить качество этих ручных тегов, и придумать потом алгоритм оценки качества (и, возможно, разметить "золотую" тестовую выборку). И дальше перебирать 100500 разных подходов, уже обладая критерием их сравнения, которому ты доверяешь.
Ну допустим для примера, что теги - это названия и описания сообществ, в которых состоит пользователь соц сети.. Обязательно ли размеченную выборку иметь, что вот такие-то названия сообществ - относятся к категории Фитнес или можно просто как-то их кластеризовать в виде точек на плоскости и потом уже вручную явным сгусткам точек дать название?
источник

АК

Андрей Копылов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Это не решит проблему выбросов и качества, если визуализировать и вручную выделить сгустки?
источник

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Андрей Копылов
Ну допустим для примера, что теги - это названия и описания сообществ, в которых состоит пользователь соц сети.. Обязательно ли размеченную выборку иметь, что вот такие-то названия сообществ - относятся к категории Фитнес или можно просто как-то их кластеризовать в виде точек на плоскости и потом уже вручную явным сгусткам точек дать название?
Да, по такому пути пойти можно.
Для выделения сгустков хорошо подходят алгоритмы кластеризации типа dbscan, или, если данных очень много, то birch (он классно масштабируется). Кластеризовать можно средние словные эмбеддинги по W2V или fasttext (эти модели скачиваются с rusvectores), для коротких инпутов типа твоих этого будет вполне достаточно (для более длинных лучше подходят sentence encoders типа USE или Laser).
источник

АК

Андрей Копылов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ок, всем спасибо 👍 буду копать)
источник

A

A in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Здравствуйте! Подскажите, почему такой код выдает ошибку
big_frame = big_frame_temp.loc[big_frame_temp.mobile.str.isnumeric()]
источник