Телеграмм чат группы rlang

Makha Cloud

Я вообще эксель люблю, если небольшие датасеты, там как раз был R компонент встроен

Makha Cloud in R (язык программирования)

11:58пожаловаться #1

Таблю)))

11:59пожаловаться #2

? Он даже с заводскими настройками хорош. Ну и в DALEX особых телодвижений нет. А вот та же Борута как и RF, на котором она построена, не воспринимает пропуски в данных.

Т.е. вы вместо одной проблемы (feature importance) получаете две: missing data imputation + feature importance.

11:59пожаловаться #3

+ DALEX является агностичным по отношению к моделям, т.е. в него можно пихать предсказания хоть с линейных моделей, хоть с деревьев, хоть с нейронок.

12:01пожаловаться #4

ЕТ

А без борута никак?

Без всего как. Но в данном случае я делаю так в данный момент.

12:03пожаловаться #5

ЕТ

Т.е. вы вместо одной проблемы (feature importance) получаете две: missing data imputation + feature importance.

А интересно, я посмотрю, спасибо!

R in R (язык программирования)

12:04пожаловаться #6

Visual Basic for Applications Engineer

Раз уж пошла жара, то прорекламирую одновременно лучший и худший аккаунт в твиттере
https://twitter.com/ryxcommar/status/1289269077928628226?s=19

Twitter

Full Stack Excel now supports Flask blueprints, which now makes the framework scalable for enterprise purposes. Now you can build large scale websites using not just one Excel workbook file, but dozens or even hundreds of Excel files! https://t.co/zU61a7z63Q

igor in R (язык программирования)

12:20пожаловаться #7

Евгений Томилов

Без всего как. Но в данном случае я делаю так в данный момент.

А как же окама?

13:09пожаловаться #8

ЕТ

А как же окама?

Можно ссылочку, если не затруднит?

igor in R (язык программирования)

13:10пожаловаться #9

Принцип лезвия окамы не плодить сущности без надобности

13:16пожаловаться #10

ЕТ

Принцип лезвия окамы не плодить сущности без надобности

А.

13:16пожаловаться #11

ЕТ

Ну, если есть проще метод, то я радостью о нём узнаю. При этом не ниже по эффективности.

Не Миша in R (язык программирования)

13:16пожаловаться #12

Принцип лезвия окамы не плодить сущности без надобности

Он всё-таки Оккам. Так что, бритва Оккама

13:36пожаловаться #13

Можно ещё обсудить, что популярная формулировка принадлежит не ему, т.к. сам он использовал несколько иные слова.

13:47пожаловаться #14

Herman Cherniaiev in R (язык программирования)

Ребята, подскажите как работать с большим корусом документов, после обработки текста и стэмминга в словаре получается 45к слов, tf-idf матрица на столько столбцов слишком большая, ни одну модель не могу обучить

Григорий Демин... in R (язык программирования)

13:54пожаловаться #15

ГД

45 тыс слов - это не очень много. Если матрица в разряженном формате, то glmnet нормально работает.

Григорий Демин... in R (язык программирования)

13:56пожаловаться #16

ГД

Модели из пакета text2vec тоже без проблем

Григорий Демин... in R (язык программирования)

13:56пожаловаться #17

ГД

Или сколько документов у вас?

13:56пожаловаться #18

Igor Yakubovskiy in R (язык программирования)

Коллеги, как эффективно создать несколько новых столбцов на основании уже существующих
Например, есть три столбца с продажами в рублях, три столбца с продажами в штуках и нужно создать три столбца с ценой
И все на основании паттернов (типа паттерны для названия компаний например) ?
В data.table

13:57пожаловаться #19

Herman Cherniaiev in R (язык программирования)

Документов около 200к и 2405 классов