Size: a a a

R language and Statistical data analysis

2019 November 01

AP

Anton Pysanka in R language and Statistical data analysis
Jury Sergeev
Всем доброго дня!

Думаю думу над такой задачей:

есть записи о покупках клиентов (ClientID), эти покупки собраны в заказы (OrderID), в заказах записи - товары (ProductID)
хотел сделать факторый анализ, но получил от data.table вот такое

data.table::dcast(
 data = data_source[, .(OrderID, ProductID, ProductCnt)],
 formula = OrderID ~ ProductID,
 value.var = "ProductCnt"
)

Ошибка в CJ(1:354851, 1:51083) :
 Cross product of elements provided to CJ() would result in 18126853633 rows which exceeds .Machine$integer.max == 2147483647

да, данных много, порядка 10 миллионов записей (1 запись - 1 товар в заказе), уникальных ProductID ~ 50 тыс.

по идее можно сделать saprseMatrix, и сделать факторый анализ по ней, но я таких библиотек не нашел


Как думаете, в каком направлении стоит двигаться???
MaterialID почему нету в data_source?
источник

JS

Jury Sergeev in R language and Statistical data analysis
кипаста-очепятка, ProductID это
источник

ГД

Григорий Демин in R language and Statistical data analysis
Jury Sergeev
Всем доброго дня!

Думаю думу над такой задачей:

есть записи о покупках клиентов (ClientID), эти покупки собраны в заказы (OrderID), в заказах записи - товары (ProductID)
хотел сделать факторый анализ, но получил от data.table вот такое

data.table::dcast(
 data = data_source[, .(OrderID, ProductID, ProductCnt)],
 formula = OrderID ~ ProductID,
 value.var = "ProductCnt"
)

Ошибка в CJ(1:354851, 1:51083) :
 Cross product of elements provided to CJ() would result in 18126853633 rows which exceeds .Machine$integer.max == 2147483647

да, данных много, порядка 10 миллионов записей (1 запись - 1 товар в заказе), уникальных ProductID ~ 50 тыс.

по идее можно сделать saprseMatrix, и сделать факторый анализ по ней, но я таких библиотек не нашел


Как думаете, в каком направлении стоит двигаться???
Я бы предположил, что Product - это слово, а Order - это документ и использовал бы Latent Dirichle Allocation  с разряженной матрицей из пакета text2vec. Он такие объемы легко кушает. Или есть вариант bi-term modelling для коротких "текстов" - https://github.com/bnosac/BTM
источник

JS

Jury Sergeev in R language and Statistical data analysis
Григорий Демин
Я бы предположил, что Product - это слово, а Order - это документ и использовал бы Latent Dirichle Allocation  с разряженной матрицей из пакета text2vec. Он такие объемы легко кушает. Или есть вариант bi-term modelling для коротких "текстов" - https://github.com/bnosac/BTM
тоже думаю в этом направлении, это позволит получить как-бы топики текста, т.е. часто повторяемые комбинации
честно - думал результатами факторного анализа воспользоваться, так, что бы объединить некоторые товары в группы, таким образом снизив размерность

спасибо, большое!
источник

ФХ

Фёдор Холькин in R language and Statistical data analysis
Всем привет
Кто может подсказать по работе с googleAnalytisR

Столкнулся с тем, что в Rstudio все прекрасно работает, повторная авторизация не требуется, все ходит.
В CMD - вечно какие-то ошибки, на этапе авторизации
источник

ФХ

Фёдор Холькин in R language and Statistical data analysis
Фёдор Холькин
Всем привет
Кто может подсказать по работе с googleAnalytisR

Столкнулся с тем, что в Rstudio все прекрасно работает, повторная авторизация не требуется, все ходит.
В CMD - вечно какие-то ошибки, на этапе авторизации
директории везде указал, перешустрил всю справку пакета, повторяю все что написано - ничерта не работает
источник

AS

Alexey Seleznev in R language and Statistical data analysis
Фёдор Холькин
Всем привет
Кто может подсказать по работе с googleAnalytisR

Столкнулся с тем, что в Rstudio все прекрасно работает, повторная авторизация не требуется, все ходит.
В CMD - вечно какие-то ошибки, на этапе авторизации
источник

ФХ

Фёдор Холькин in R language and Statistical data analysis
вот имеено её я перечилтал уже
источник

ФХ

Фёдор Холькин in R language and Statistical data analysis
Я не знаю в чем была магия, но сделал еще раз все тоже самое, и оно заработало
Спасибо
источник

А

Александр in R language and Statistical data analysis
привет, думаю как замачить пару data.tables, единственное что осложняет жизнь - матчить нужно по интервалам, в одной табличке точные значения, в другой колонки с допустимыми интервалами, как бы это не в лоб решать перебором по строкам второй таблички ?
источник

OB

Oleg Basmanov in R language and Statistical data analysis
пример бы
источник

AP

Anton Pysanka in R language and Statistical data analysis
в той табличке, где точные значения добавить столбец, который бы соответствовал интервалу, в который оно входит, а потом матчить по интервалам
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
в data.table есть механизм rolling join
источник

А

Александр in R language and Statistical data analysis
Anton Pysanka
в той табличке, где точные значения добавить столбец, который бы соответствовал интервалу, в который оно входит, а потом матчить по интервалам
о, точно, спасибо, глаз уже замылен, а тут простое и рабочее решение
источник

А

Александр in R language and Statistical data analysis
можно мержить прямо интервалами)
источник

А

Александр in R language and Statistical data analysis
Philipp Upravitelev
в data.table есть механизм rolling join
тоже посмотрю, спасибо
источник

АК

Артём Клевцов in R language and Statistical data analysis
Александр
привет, думаю как замачить пару data.tables, единственное что осложняет жизнь - матчить нужно по интервалам, в одной табличке точные значения, в другой колонки с допустимыми интервалами, как бы это не в лоб решать перебором по строкам второй таблички ?
foverlaps.
источник

А

Александр in R language and Statistical data analysis
интересная функция, благодарю
источник

E

Egor in R language and Statistical data analysis
товарищи!
возникла задача трижды разделить значение X на значение Y так, чтобы три результата деления Z1, Z2, Z3 в сумме давали X.

для банального случая золотого сечения на две части имеем Y=φ, но как выйти на аналитическое отображение Y для трёх частей?
источник

E

Egor in R language and Statistical data analysis
приближённо это число быстро находится и равно 1,8392865...
источник