Size: a a a

R language and Statistical data analysis

2020 May 06

АК

Артём Клевцов... in R language and Statistical data analysis
greengrocery
можно через две группировки и mutate вместо summarise  после первой из них:
df %>%  
 group_by(foo1) %>%
 mutate(median = median(xxx)) %>%
 group_by(foo1, foo2, foo3) %>%
 summaraise(mean = mean(xxx), median = unique(median))
first вместо unique лучше.
источник

АК

Артём Клевцов... in R language and Statistical data analysis
Alexey Burnakov
Привет всем. Не знаете, есть способ открыть большущий файл, который размером с оперативку? Попробовал как обычно fread (matched_dt <- fread('matched_dt.csv', verbose = T, nrows = 100, select = 1)), получил такое: Error in fread("matched_dt.csv", verbose = T, nrows = 100, select = 1) :
 Opened 32.05GB (34411926381 bytes) file ok but could not memory map it. This is a 64bit process. There is probably not enough contiguous virtual memory available.
Что значит «открыть»? R работает с данными в оперативной памяти, то есть чтобы работать с данными в R их нужно загрузить в оперативную память. Исключения составляют спец. структуры данных, вроде bigmemory, и коннекторы к базам.
источник

AS

Alexey Seleznev in R language and Statistical data analysis
так вроде ещё в апреле вернулся в десятку)
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Артём Клевцов
Что значит «открыть»? R работает с данными в оперативной памяти, то есть чтобы работать с данными в R их нужно загрузить в оперативную память. Исключения составляют спец. структуры данных, вроде bigmemory, и коннекторы к базам.
Имел в виду загрузить в память. Я уже сделал через минибатчи, попозже выложу код.
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Alexey Burnakov
Имел в виду загрузить в память. Я уже сделал через минибатчи, попозже выложу код.
library(readr)

f <- function(x, pos){
       
       require(data.table)
       
       dt <- as.data.table(x)
       
       dt <-
               unique(
                       dt
                       , by = c('id_report', 'stemmed_title_photo', 'date_time', 'news_date_time', 'message_id', 'similar')
                       )[, c('id_report', 'stemmed_title_photo', 'date_time', 'news_date_time', 'message_id', 'similar'), with = F]
       
       dt
       
}

matched_dt <-
       read_csv_chunked(
               'matched_dt.csv'
               , DataFrameCallback$new(f)
               , chunk_size = 50000
               )

setDT(matched_dt)
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Я сделал вот так. Миниматчи через readr::read_csv_chunked В функции callback поубирал избыточность, которая присутствовала в файле.
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Проблема изначало возникла, когда я создал этот файл с избыточностью, проверил, он вроде весил 4Гб в памяти. Сохранил, он стал весить 33 Гб на диске.... А я уже почистил память
источник

АК

Артём Клевцов... in R language and Statistical data analysis
Для таких случаев как раз и нужны баш-утилиты, вроде head/tail/cut/awk.
источник

AB

Alexey Burnakov in R language and Statistical data analysis
Артём Клевцов
Для таких случаев как раз и нужны баш-утилиты, вроде head/tail/cut/awk.
Буду иметь в виду, не мастер по ним, честно. Там логика еще не совсем простая, в общем, проще мне было так сделать, чем разбираться в баше.
источник
2020 May 07

JS

Jury Sergeev in R language and Statistical data analysis
aGricolaMZ
Помогите заэкранировать символы? Вопрос звучит тупо, я знаю. Я вычленил некоторые подстроки (например asd(k)) из строк (например, asd(k) mama papa). И я хочу вычесть из строк подстроки, чтобы получилось mama papa. Для одного случая, я могу это сделать руками, но у меня таких строк 5к.
Разбить на слова по каким то условиям, ненужные слова убрать, далее собрать предложение
источник

a

aGricolaMZ in R language and Statistical data analysis
Jury Sergeev
Разбить на слова по каким то условиям, ненужные слова убрать, далее собрать предложение
Спасибо, свою задачу я уже решил. Ваше решение мне кажется не совсем изящным, но задачу решило бы.
источник

АК

Артём Клевцов... in R language and Statistical data analysis
Переслано от Натали
#вакансия #job #Spb #ML
Вакансия: Senior Machine Learning Engineer
Локация: Санкт-Петербург
Формат работы: #фуллтайм
Занятость: Полная
Зарплатная вилка: до 300 000 гросс
Компания: ЛЕНТА
Machine Learning проект.
Стек: экосистема Hadoop + Machine Learning.  
Задачи:
Прогнозирование клиентского поведения с помощью ML;
Управление логистикой на основе Big Data;
Персонализация покупательского опыта, используя ML;
Мы предлагаем:
Достойная «белая» зарплата (по результатам собеседования), бонусы по итогам года;
Возможность удаленной работы;
Расширенный соц. пакет: ДМС со стоматологией, льготное питание в собственной столовой;
Профессиональное развитие: внутреннее обучение и закрытые семинары от партнеров Ленты;
Комфортный офис в Приморском районе;
Оформление по ТК РФ.
Контакты для связи: @natalisaHR
Размещение вакансии согласовано 😊
источник

VP

Veronika Ponizova in R language and Statistical data analysis
Уже больше года ищут 🤔
источник

AS

Alexander Semenov in R language and Statistical data analysis
Джызас...
источник

А

Александр in R language and Statistical data analysis
Слышал что в ленте нет/небыло своего датасаенса вроде того что в пятерочке, они отдавали эти задачи внешним командам
источник

A

Alex in R language and Statistical data analysis
Помогите, пожалуйста, понять, почему если необходимо применить к набору данных условие “оставить записи, для которых количество транзакций < 2 ИЛИ доход меньше 1000” с применением

filter(transactions < 2 | revenue < 1000)
получается один результат, а с применением
filter(transactions < 2) %>% filter(revenue < 1000)
другой
источник

MS

Maria Servetnik in R language and Statistical data analysis
потому что в первом у вас или, а во втором и?
источник

A

Alex in R language and Statistical data analysis
т.е. второй вариант аналогичен  filter(transactions < 2 &revenue < 1000) ?
источник

MS

Maria Servetnik in R language and Statistical data analysis
Alex
т.е. второй вариант аналогичен  filter(transactions < 2 &revenue < 1000) ?
ага
источник

A

Alex in R language and Statistical data analysis
но для моей задачи правильно будет использовать оператор &, хотя условие бизнес задачи ““оставить записи, для которых количество транзакций < 2 ИЛИ доход меньше 1000” ? что-то не понимаю)
источник