Телеграмм чат группы rlang_ru страница 1608

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

R language and Statistical data analysis

1000 membersпожаловаться на группу

2019 November 01

AP

Anton Pysanka in R language and Statistical data analysis

Всем доброго дня!

Думаю думу над такой задачей:

есть записи о покупках клиентов (ClientID), эти покупки собраны в заказы (OrderID), в заказах записи - товары (ProductID)
хотел сделать факторый анализ, но получил от data.table вот такое

data.table::dcast(
data = data_source[, .(OrderID, ProductID, ProductCnt)],
formula = OrderID ~ ProductID,
value.var = "ProductCnt"
)

Ошибка в CJ(1:354851, 1:51083) :
Cross product of elements provided to CJ() would result in 18126853633 rows which exceeds .Machine$integer.max == 2147483647

да, данных много, порядка 10 миллионов записей (1 запись - 1 товар в заказе), уникальных ProductID ~ 50 тыс.

по идее можно сделать saprseMatrix, и сделать факторый анализ по ней, но я таких библиотек не нашел

Как думаете, в каком направлении стоит двигаться???

MaterialID почему нету в data_source?

источник

11:38пожаловаться #1

JS

Jury Sergeev in R language and Statistical data analysis

кипаста-очепятка, ProductID это

источник

11:39пожаловаться #2

ГД

Григорий Демин in R language and Statistical data analysis

Всем доброго дня!

Думаю думу над такой задачей:

есть записи о покупках клиентов (ClientID), эти покупки собраны в заказы (OrderID), в заказах записи - товары (ProductID)
хотел сделать факторый анализ, но получил от data.table вот такое

data.table::dcast(
data = data_source[, .(OrderID, ProductID, ProductCnt)],
formula = OrderID ~ ProductID,
value.var = "ProductCnt"
)

Ошибка в CJ(1:354851, 1:51083) :
Cross product of elements provided to CJ() would result in 18126853633 rows which exceeds .Machine$integer.max == 2147483647

да, данных много, порядка 10 миллионов записей (1 запись - 1 товар в заказе), уникальных ProductID ~ 50 тыс.

по идее можно сделать saprseMatrix, и сделать факторый анализ по ней, но я таких библиотек не нашел

Как думаете, в каком направлении стоит двигаться???

Я бы предположил, что Product - это слово, а Order - это документ и использовал бы Latent Dirichle Allocation с разряженной матрицей из пакета text2vec. Он такие объемы легко кушает. Или есть вариант bi-term modelling для коротких "текстов" - https://github.com/bnosac/BTM

Biterm Topic Modelling for Short Text with R. Contribute to bnosac/BTM development by creating an account on GitHub.

источник

11:48пожаловаться #3

JS

Jury Sergeev in R language and Statistical data analysis

Григорий Демин

Я бы предположил, что Product - это слово, а Order - это документ и использовал бы Latent Dirichle Allocation с разряженной матрицей из пакета text2vec. Он такие объемы легко кушает. Или есть вариант bi-term modelling для коротких "текстов" - https://github.com/bnosac/BTM

Biterm Topic Modelling for Short Text with R. Contribute to bnosac/BTM development by creating an account on GitHub.

тоже думаю в этом направлении, это позволит получить как-бы топики текста, т.е. часто повторяемые комбинации
честно - думал результатами факторного анализа воспользоваться, так, что бы объединить некоторые товары в группы, таким образом снизив размерность

спасибо, большое!

источник

11:51пожаловаться #4

ФХ

Фёдор Холькин in R language and Statistical data analysis

Всем привет
Кто может подсказать по работе с googleAnalytisR

Столкнулся с тем, что в Rstudio все прекрасно работает, повторная авторизация не требуется, все ходит.
В CMD - вечно какие-то ошибки, на этапе авторизации

источник

12:10пожаловаться #5

ФХ

Фёдор Холькин in R language and Statistical data analysis

Фёдор Холькин

Всем привет
Кто может подсказать по работе с googleAnalytisR

Столкнулся с тем, что в Rstudio все прекрасно работает, повторная авторизация не требуется, все ходит.
В CMD - вечно какие-то ошибки, на этапе авторизации

директории везде указал, перешустрил всю справку пакета, повторяю все что написано - ничерта не работает

источник

12:11пожаловаться #6

AS

Alexey Seleznev in R language and Statistical data analysis

Фёдор Холькин

Всем привет
Кто может подсказать по работе с googleAnalytisR

Столкнулся с тем, что в Rstudio все прекрасно работает, повторная авторизация не требуется, все ходит.
В CMD - вечно какие-то ошибки, на этапе авторизации

почитай - http://code.markedmondson.me/googleAnalyticsR/articles/setup.html

code.markedmondson.me

Setting up Google Analytics API downloads to R

источник

12:11пожаловаться #7

ФХ

Фёдор Холькин in R language and Statistical data analysis

Alexey Seleznev

почитай - http://code.markedmondson.me/googleAnalyticsR/articles/setup.html

code.markedmondson.me

Setting up Google Analytics API downloads to R

вот имеено её я перечилтал уже

источник

12:12пожаловаться #8

ФХ

Фёдор Холькин in R language and Statistical data analysis

Alexey Seleznev

почитай - http://code.markedmondson.me/googleAnalyticsR/articles/setup.html

code.markedmondson.me

Setting up Google Analytics API downloads to R

Я не знаю в чем была магия, но сделал еще раз все тоже самое, и оно заработало
Спасибо

источник

12:43пожаловаться #9

А

Александр in R language and Statistical data analysis

привет, думаю как замачить пару data.tables, единственное что осложняет жизнь - матчить нужно по интервалам, в одной табличке точные значения, в другой колонки с допустимыми интервалами, как бы это не в лоб решать перебором по строкам второй таблички ?

источник

16:38пожаловаться #10

OB

Oleg Basmanov in R language and Statistical data analysis

пример бы

источник

16:41пожаловаться #11

AP

Anton Pysanka in R language and Statistical data analysis

в той табличке, где точные значения добавить столбец, который бы соответствовал интервалу, в который оно входит, а потом матчить по интервалам

источник

16:42пожаловаться #12

PU

Philipp Upravitelev in R language and Statistical data analysis

в data.table есть механизм rolling join

источник

16:45пожаловаться #13

А

Александр in R language and Statistical data analysis

в той табличке, где точные значения добавить столбец, который бы соответствовал интервалу, в который оно входит, а потом матчить по интервалам

о, точно, спасибо, глаз уже замылен, а тут простое и рабочее решение

источник

16:51пожаловаться #14

А

Александр in R language and Statistical data analysis

можно мержить прямо интервалами)

источник

16:51пожаловаться #15

А

Александр in R language and Statistical data analysis

Philipp Upravitelev

в data.table есть механизм rolling join

тоже посмотрю, спасибо

источник

16:51пожаловаться #16

АК

Артём Клевцов in R language and Statistical data analysis

Александр

привет, думаю как замачить пару data.tables, единственное что осложняет жизнь - матчить нужно по интервалам, в одной табличке точные значения, в другой колонки с допустимыми интервалами, как бы это не в лоб решать перебором по строкам второй таблички ?

foverlaps.

источник

17:41пожаловаться #17

А

Александр in R language and Statistical data analysis

Артём Клевцов

foverlaps.

интересная функция, благодарю

источник

17:43пожаловаться #18

E

Egor in R language and Statistical data analysis

товарищи!
возникла задача трижды разделить значение X на значение Y так, чтобы три результата деления Z1, Z2, Z3 в сумме давали X.

для банального случая золотого сечения на две части имеем Y=φ, но как выйти на аналитическое отображение Y для трёх частей?

источник

19:55пожаловаться #19

E

Egor in R language and Statistical data analysis

приближённо это число быстро находится и равно 1,8392865...

источник

19:55пожаловаться #20