Телеграмм чат группы rlang

Ребят еще раз привет! такая проблема: Есть датафрейм, в нем много данных. Во всех колонках кроме одной(value.sample) значения одинаковые. Мне нужно по колонке amplicon (AMPL273008565) сделать медиану по значениям value.reference и потом, так как далее все значения одинаковы и отличаются только по amplicon и value.reference, убрать дублирующийся строки.
head(ATRX[,c(1:6,17,18,22)])
gene MeanRatio LowerBoundBoot MeanBoot UpperBoundBoot LowerNoise value.sample value.reference amplicon
1 ATRX 0.49 0.25 0.49 0.85 0.87 165.3665 130.9586 AMPL273008565
2 ATRX 0.49 0.25 0.49 0.85 0.87 165.3665 130.4527 AMPL273008565
3 ATRX 0.49 0.25 0.49 0.85 0.87 165.3665 157.8846 AMPL273008565
4 ATRX 0.49 0.25 0.49 0.85 0.87 165.3665 123.4716 AMPL273008565
5 ATRX 0.49 0.25 0.49 0.85 0.87 165.3665 128.0494 AMPL273008565
6 ATRX 0.49 0.25 0.49 0.85 0.87 165.3665 146.0372

количество уникальных значений по колонке ампликон - 105
unique(ATRX$amplicon)
[1] "AMPL273008565" "AMPL274078084" "AMPL274087077" "AMPL274093861" и так далее до 105

По остальным кроме value.reference - 1
unique(ATRX$MeanRatio)
[1] 0.49

По факту получается мне надо высчитать медиану, что делается через dplyr -
by_multiple <- ATRX %>%
group_by(amplicon) %>%
summarise(count= mean(value.reference))
Но он создает таблицу с медианой по ампликону. и я не понимаю как дальше удалить дупликаты в основной таблице и присоединить к ней результат по медианам

источник

01:07пожаловаться #7

Philipp Upravitelev in R (язык программирования)

приложите семпл датасета и код, иначе понять, в чем проблема, достаточно сложно

источник

01:12пожаловаться #8

Кирилл in R (язык программирования)

в каком виде приложить?

источник

01:13пожаловаться #9

Кирилл in R (язык программирования)

ага

источник

01:14пожаловаться #10

Кирилл in R (язык программирования)

бритва пишет щас мне скажет

источник

01:14пожаловаться #11

Кирилл in R (язык программирования)

двай в личку

источник

01:14пожаловаться #12

Philipp Upravitelev in R (язык программирования)

csv, rds, что угодно

источник

01:14пожаловаться #13

Ilya Shutov in R (язык программирования)

Кирилл, на конкретный вопрос куда проще получить ответ. Чем не устроил https://rdatatable.gitlab.io/data.table/reference/foverlaps.html?

rdatatable.gitlab.io

Fast overlap joins — foverlaps

A fast binary-search based overlap join of two data.tables.
This is very much inspired by findOverlaps function from the Bioconductor
package IRanges (see link below under See Also).
Usually, x is a very large data.table with small interval ranges, and
y is much smaller keyed data.table with relatively larger
interval spans. For a usage in genomics, see the examples section.
NOTE: This is still under development, meaning it is stable, but some features
are yet to be implemented. Also, some arguments and/or the function name itself
could be changed.

источник

06:24пожаловаться #14

Ilya Shutov in R (язык программирования)

Кстати, красивая публикация была: https://habr.com/ru/post/547448/

Хабр

SQLite — не игрушка

Рассказываю, почему SQLite отлично подойдет вам в повседневной работе. И неважно, разработчик вы, аналитик, тестировщик, админ или продакт-менеджер.Для затравки...

источник

06:35пожаловаться #15

Анатолий in R (язык программирования)

Спасибо! Попробую буду осваивать.

Кстати, fread заработал "по кусочкам". Оказалось достаточно минимальный объем виртуальной памяти поставить больше объёма файла данных.

источник

14:09пожаловаться #16

Dm Kb in R (язык программирования)

прочитал статью, но для себя не изменил мнение, что data.table и fst для анализа будут всегда выигрывать у таких БД по скорости, да и по синтаксису, но последнее на любителя видимо

источник

14:28пожаловаться #17

Ilya Shutov in R (язык программирования)

речь не идет о выигрыше. хороший подход, который позволяет и упомянутую задачу решить тоже

можно другую БД сюда поставить.

источник

14:29пожаловаться #18

БА

Байкулов Антон... in R (язык программирования)

Согласен. Полезно

источник

15:05пожаловаться #19

БА

Байкулов Антон... in R (язык программирования)

Вопрос наверное в том, какие задачи решать. Если для небольшого приложения на шайни или каких-то информационных панелей, то наверное это один з лучших вариантов

источник

15:06пожаловаться #20