Size: a a a

R (язык программирования)

2020 July 28

AB

Alexey Burnakov in R (язык программирования)
Владислав Lazycat
Джеймс Джойс Вас не поймет 😉

сорри за оффтоп
😀
источник

ИЕ

Илья Ерошенков... in R (язык программирования)
@Lazycat_su Да, Джойс не для того разрабатывал поток сознания, чтобы потом умельцы при помощи Python пунктуацию проставляли. Смысл техники потока сознания - приблизиться к передачи реальности до такой степени, которая не может быть достигнута из-за ограничений пунктуации. Сорри за офтоп
источник

ГД

Григорий Демин... in R (язык программирования)
Alexey Burnakov
может там свои наработки...
Интересно попробовать просто нграммами и линейной регрессией или xgboost... Оценивать вероятность, что между парой слов есть запятая. Мне кажется, не самая плохая точность будет, так как в русском довольно строгие правила по запятым
источник

AB

Alexey Burnakov in R (язык программирования)
Григорий Демин
Интересно попробовать просто нграммами и линейной регрессией или xgboost... Оценивать вероятность, что между парой слов есть запятая. Мне кажется, не самая плохая точность будет, так как в русском довольно строгие правила по запятым
надо в любом случае предобученные эмбеддинги брать. тут важны не упрощенные словоформы, типа причастных оборотов
источник

AB

Alexey Burnakov in R (язык программирования)
и это сведется к использованию предобученного БЕРТа, скорее всего, с нашлепкой в виде какой-то классификационной модели
источник

ГД

Григорий Демин... in R (язык программирования)
Alexey Burnakov
надо в любом случае предобученные эмбеддинги брать. тут важны не упрощенные словоформы, типа причастных оборотов
Интересно, а может у вас есть на примете подходящий корпус текста в свободном доступе?
источник

AB

Alexey Burnakov in R (язык программирования)
Григорий Демин
Интересно, а может у вас есть на примете подходящий корпус текста в свободном доступе?
Я вряд ли буду этой задачей заниматься, если честно. А корпус можно любой русский, но есть еще тонкость в том, что в эмбеддингах, вроде бы, удаляются зн.препинания. В общем, жизнь меня к этому не готовила....
источник

E

EK479 in R (язык программирования)
Уже спрашивала про отбор переменных для линейной регрессии и мне подсказали Boruta. Например, в данной статье речь также идет о Random Forest Method, Relative Importance и других методах http://r-statistics.co/Variable-Selection-and-Importance-With-R.html
Скажите, пожалуйста, чем они отличаются и что лучше использовать?
источник

AS

Alexander Semenov in R (язык программирования)
Борута поверх random forest и строится.
источник

AS

Alexander Semenov in R (язык программирования)
Я потерял к ней интерес, когда выяснилось, что для неё надо пропуски в данных заполнять.
источник

ЕТ

Евгений Томилов... in R (язык программирования)
Alexander Semenov
Я потерял к ней интерес, когда выяснилось, что для неё надо пропуски в данных заполнять.
А уже научились создавать модели без коррекции пропусков в данных?
источник

AS

Alexander Semenov in R (язык программирования)
Xgboost же, catboost и т.д.
источник

ЕТ

Евгений Томилов... in R (язык программирования)
источник

АК

Артём Клевцов... in R (язык программирования)
Alexander Semenov
Я потерял к ней интерес, когда выяснилось, что для неё надо пропуски в данных заполнять.
Это точно? Что-то не припомню такого.
источник

AS

Alexander Semenov in R (язык программирования)
Ну она, вроде, вызывала RF из ranger и тот ругался на пропуски. Давно это было, года 4 назад.
источник

AS

Alexander Semenov in R (язык программирования)
Мы долго на неё засматривались, но что-то не пошло.
источник

AS

Alexander Semenov in R (язык программирования)
А сейчас в том же Вконташе SHAPley используют.
источник

М

Михаил in R (язык программирования)
Всем привет,  нужна подсказка.
есть датафрейм
df <- data_frame(V1 = c(1:8), V2 = c('A', NA, 'B', NA, 'B', 'A', NA, 'A'))

задача - заменить в переменной V2 NA на значение из соседней строки, если сосед снизу и сверху совпадает.

Желаемый результат:
     V1 V2   
 <int> <chr>
1     1 A    
2     2 NA  
3     3 B    
4     4 B    
5     5 B    
6     6 A    
7     7 A    
8     8 A



Можно ли обойтись без цикла, с помощью векторизованных вычислений?
источник

YS

Yevhen Salatskiy in R (язык программирования)
@artemklevtsov реклама
источник

А

Александр in R (язык программирования)
Михаил
Всем привет,  нужна подсказка.
есть датафрейм
df <- data_frame(V1 = c(1:8), V2 = c('A', NA, 'B', NA, 'B', 'A', NA, 'A'))

задача - заменить в переменной V2 NA на значение из соседней строки, если сосед снизу и сверху совпадает.

Желаемый результат:
     V1 V2   
 <int> <chr>
1     1 A    
2     2 NA  
3     3 B    
4     4 B    
5     5 B    
6     6 A    
7     7 A    
8     8 A



Можно ли обойтись без цикла, с помощью векторизованных вычислений?
используй shift
источник