Телеграмм чат группы rlang

Владислав Lazycat

Джеймс Джойс Вас не поймет 😉

сорри за оффтоп

😀

Илья Ерошенков... in R (язык программирования)

13:06пожаловаться #1

ИЕ

@Lazycat_su Да, Джойс не для того разрабатывал поток сознания, чтобы потом умельцы при помощи Python пунктуацию проставляли. Смысл техники потока сознания - приблизиться к передачи реальности до такой степени, которая не может быть достигнута из-за ограничений пунктуации. Сорри за офтоп

Григорий Демин... in R (язык программирования)

13:06пожаловаться #2

ГД

Alexey Burnakov

может там свои наработки...

Интересно попробовать просто нграммами и линейной регрессией или xgboost... Оценивать вероятность, что между парой слов есть запятая. Мне кажется, не самая плохая точность будет, так как в русском довольно строгие правила по запятым

13:13пожаловаться #3

Григорий Демин

надо в любом случае предобученные эмбеддинги брать. тут важны не упрощенные словоформы, типа причастных оборотов

13:16пожаловаться #4

и это сведется к использованию предобученного БЕРТа, скорее всего, с нашлепкой в виде какой-то классификационной модели

Григорий Демин... in R (язык программирования)

13:17пожаловаться #5

ГД

Alexey Burnakov

Интересно, а может у вас есть на примете подходящий корпус текста в свободном доступе?

13:18пожаловаться #6

Григорий Демин

Интересно, а может у вас есть на примете подходящий корпус текста в свободном доступе?

Я вряд ли буду этой задачей заниматься, если честно. А корпус можно любой русский, но есть еще тонкость в том, что в эмбеддингах, вроде бы, удаляются зн.препинания. В общем, жизнь меня к этому не готовила....

EK479 in R (язык программирования)

13:21пожаловаться #7

Уже спрашивала про отбор переменных для линейной регрессии и мне подсказали Boruta. Например, в данной статье речь также идет о Random Forest Method, Relative Importance и других методах http://r-statistics.co/Variable-Selection-and-Importance-With-R.html
Скажите, пожалуйста, чем они отличаются и что лучше использовать?

r-statistics.co

Feature Selection With R | Boruta

R Language Tutorials for Advanced Statistics

13:48пожаловаться #8

Борута поверх random forest и строится.

13:53пожаловаться #9

Я потерял к ней интерес, когда выяснилось, что для неё надо пропуски в данных заполнять.

Евгений Томилов... in R (язык программирования)

13:55пожаловаться #10

ЕТ

Alexander Semenov

Я потерял к ней интерес, когда выяснилось, что для неё надо пропуски в данных заполнять.

А уже научились создавать модели без коррекции пропусков в данных?

13:55пожаловаться #11

Xgboost же, catboost и т.д.

Евгений Томилов... in R (язык программирования)

13:56пожаловаться #12

ЕТ

sticker.webp

(48.64 Кб)

Артём Клевцов... in R (язык программирования)

13:57пожаловаться #13

АК

Alexander Semenov

Я потерял к ней интерес, когда выяснилось, что для неё надо пропуски в данных заполнять.

Это точно? Что-то не припомню такого.

13:59пожаловаться #14

Ну она, вроде, вызывала RF из ranger и тот ругался на пропуски. Давно это было, года 4 назад.

14:00пожаловаться #15

Мы долго на неё засматривались, но что-то не пошло.

14:02пожаловаться #16

А сейчас в том же Вконташе SHAPley используют.

Михаил in R (язык программирования)

14:02пожаловаться #17

Всем привет, нужна подсказка.
есть датафрейм

df <- data_frame(V1 = c(1:8), V2 = c('A', NA, 'B', NA, 'B', 'A', NA, 'A'))

задача - заменить в переменной V2 NA на значение из соседней строки, если сосед снизу и сверху совпадает.

Желаемый результат:

     V1 V2   
  <int> <chr>
1     1 A    
2     2 NA   
3     3 B    
4     4 B    
5     5 B    
6     6 A    
7     7 A    
8     8 A

Можно ли обойтись без цикла, с помощью векторизованных вычислений?

Yevhen Salatskiy in R (язык программирования)

14:25пожаловаться #18

@artemklevtsov реклама

Александр in R (язык программирования)

14:26пожаловаться #19

Михаил

Всем привет, нужна подсказка.
есть датафрейм

df <- data_frame(V1 = c(1:8), V2 = c('A', NA, 'B', NA, 'B', 'A', NA, 'A'))

     V1 V2   
  <int> <chr>
1     1 A    
2     2 NA   
3     3 B    
4     4 B    
5     5 B    
6     6 A    
7     7 A    
8     8 A

Можно ли обойтись без цикла, с помощью векторизованных вычислений?

используй shift