ИП
Есть набор данных — количество голосов и явка на участок. Данные уже сагрегированы. Для простоты возьму только голоса и явку «за»
turnout_yes
— явка проголосовавших «за», в сегменте [0,1].vote_yes
— количество голосов, проголосовавших «за».Вот так выглядят данные «вживую»:
# A tibble: 96,493 x 2
turnout_yes vote_yes
<dbl> <int>
1 0.768 1749
2 0.772 1378
3 0.662 1007
4 0.524 355
5 0.606 819
6 0.624 659
7 0.571 337
8 0.627 284
9 0.628 817
10 0.512 774
Задача — посчитать количество голосов в интервале явки 1.00%Я понимаю что это должна быть гистограмма плотности распределения, но не могу придумать как привести две переменные к виду гистограммы.
Ничего не придумал лучше чем привести две переменные к одной, то есть:
«повторить ячейку
turnout_yes
N раз из ячейки vote_yes
». И потом построить привычную гистограмму.Но как-то видится мне такой подход не самым оптимальным — только для варианта «за» у меня получается 57 млн. значений.
Вобщем, вопрос — как построить гистограмму от двух переменных, где по X будет явка, а по Y количество голосов в интервале явки 1.00%?
Воспроизводимый пример:
set.seed(42)
data_set <- tibble(yes_turnout = rnorm(1000, mean = 0.5, sd = 0.15),
yes = sample(1:1000, 1000, replace=TRUE))