Телеграмм чат группы bigdata

2020 November 07

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

источник

22:54пожаловаться #1

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ну что б так получилось , но только у меня тысячи переменных

источник

22:54пожаловаться #2

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Кирилл Чертоганов

Ну что б так получилось , но только у меня тысячи переменных

Если две переменных коррелируют между собой сильно (ну, например, с коэффициентом в 0.99), то они выражают одно и то же, т.е. их вектора в пространстве направлены с очень маленьким углом ==> их можно схлопнуть для уменьшения размерности, например.

источник

22:58пожаловаться #3

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Обычно я сначала выявляют группы сильно коррелирующих переменных, а потом схлопываю их PCA. Меньше размерность пространства ==> легче провести разделяющие плоскости или ещё там что-нибудь, да и вычислений меньше, что всегда лучше.

источник

22:58пожаловаться #4

2020 November 08

K

Kamoliddin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

А что если оставлять только 1 переменную из такой группы? Как сильно это влияет на модель?

источник

03:02пожаловаться #5

G

GG in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Привет. Как вы обрабатываете веб контент? есть какие-то инструменты для того, чтоб очищать контент от хмтла и прочих элементов меню страницы

источник

04:05пожаловаться #6

YS

Yehor Smoliakov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

GG

Привет. Как вы обрабатываете веб контент? есть какие-то инструменты для того, чтоб очищать контент от хмтла и прочих элементов меню страницы

Scrapy?

источник

04:09пожаловаться #7

G

GG in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Yehor Smoliakov

Scrapy?

спасибо. гляну его

источник

04:11пожаловаться #8

US

Uladzislau Starasotn... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Всем доброго времени суток! Передо мной стоит задача написать проект для распознавания пола человека по изображению (2 недели на решение). Я только начинаю осваивать машинное обучение. Может кто поделиться полезными ссылками для изучения этого вопроса? Заранее извиняюсь, если я ошибся чатом

источник

09:36пожаловаться #9

A

Anton in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Uladzislau Starasotnikau

Всем доброго времени суток! Передо мной стоит задача написать проект для распознавания пола человека по изображению (2 недели на решение). Я только начинаю осваивать машинное обучение. Может кто поделиться полезными ссылками для изучения этого вопроса? Заранее извиняюсь, если я ошибся чатом

По лицу?

источник

11:51пожаловаться #10

US

Uladzislau Starasotn... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Anton

По лицу?

да

источник

12:15пожаловаться #11

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Евгений Томилов

Если две переменных коррелируют между собой сильно (ну, например, с коэффициентом в 0.99), то они выражают одно и то же, т.е. их вектора в пространстве направлены с очень маленьким углом ==> их можно схлопнуть для уменьшения размерности, например.

Спасибо

источник

13:17пожаловаться #12

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ребят, вопрос, а что если найти сильно коррелирующие переменные с целевой переменной и оставить только их, и потом на них построить модель нейронной сети ? Что тогда будет ? Будут ли какие-то проблемы? И наоборот , предсказания получаться хорошими ?

источник

13:18пожаловаться #13

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Или например в ансамблевых моделях это может помочь ?

источник

13:22пожаловаться #14

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Кирилл Чертоганов

Ребят, вопрос, а что если найти сильно коррелирующие переменные с целевой переменной и оставить только их, и потом на них построить модель нейронной сети ? Что тогда будет ? Будут ли какие-то проблемы? И наоборот , предсказания получаться хорошими ?

Технически, корреляция говорит нам, насколько вектора переменных сонаправлены и насколько между ними острый угол. Однако, корреляция ничего не говорит о влиянии, то есть, эти две переменные могут быть сонаправлены почти из-за чего угодно.
Если пробовать искать обладающие наибольшей предиктивной силой по отношению к целевой переменной предикторы, то, я думаю, будет более эффективно использовать коэффициенты частных корреляций, которые убирают из коэффициента примесь возможного влияния других измеренных нами переменных.

А, вообще, лучше использовать тогда BORUTA алгоритм, он позволяет достаточно эффективно находить сильные переменные.

источник

13:30пожаловаться #15

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Так или иначе обычно эффективнее, если предикторы имеют хоть какую-то корреляцию с целевой переменной.

источник

13:31пожаловаться #16

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Евгений Томилов

Технически, корреляция говорит нам, насколько вектора переменных сонаправлены и насколько между ними острый угол. Однако, корреляция ничего не говорит о влиянии, то есть, эти две переменные могут быть сонаправлены почти из-за чего угодно.
Если пробовать искать обладающие наибольшей предиктивной силой по отношению к целевой переменной предикторы, то, я думаю, будет более эффективно использовать коэффициенты частных корреляций, которые убирают из коэффициента примесь возможного влияния других измеренных нами переменных.

А, вообще, лучше использовать тогда BORUTA алгоритм, он позволяет достаточно эффективно находить сильные переменные.

Спасибо...
А есть ли библиотека, которая находит коэффициенты частых корреляций, чтобы...исключить влияние других переменных смешанных ?

источник

13:32пожаловаться #17

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ну да....попробую botuta..

источник

13:33пожаловаться #18

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Boruta долго работает на 200 объектах и 1000 признаках ?

источник