Телеграмм чат группы rlang_ru страница 3116

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

R (язык программирования)

1356 membersпожаловаться на группу

2021 May 20

ГД

Григорий Демин... in R (язык программирования)

В stringdist есть метод расчета lqs - longest common substring. Может, этот метод подойдёт? Хотя искать такими способами общие корни - немного бег по граблям...

источник

12:43пожаловаться #1

ГД

Григорий Демин... in R (язык программирования)

Интересно, почему в dog и flower результат - 0? У них же общая буква "o"

источник

12:44пожаловаться #2

IS

Ilya Shutov in R (язык программирования)

lcs, наверное, здесь это как раз и подойдет.

источник

12:46пожаловаться #3

YK

Yulia Kuzmina in R (язык программирования)

данные выглядят так:

a = c(‘менеджер в торговле’, ‘,главный бухгалтер’, ‘специалист’)
b = c(‘торговый представитель’, ‘ведущий специалист с бухгалтерскими функциями’, ‘сценарист’)

задача: найти идентичные корни, но без оверкилла

источник

12:51пожаловаться #4

NK

Nikita Karlushin in R (язык программирования)

https://rdrr.io/cran/PTXQC/man/LCSn.html

LCSn: Find longest common substring from 'n' strings. in PTXQC: Quality Report Generation for MaxQuant and mzTab Results

Warning: greedy heuristic! This is not guaranteed to find the best solution (or any solution at all), since its done pairwise with the shortest input string as reference.

источник

12:53пожаловаться #5

ГД

Григорий Демин... in R (язык программирования)

Longest common substring будет и на общие буквы срабатывать. В этом некоторая проблема...

источник

12:55пожаловаться #6

ГД

Григорий Демин... in R (язык программирования)

Слово начинается с одной буквы - уже общий корень... Разве что фильтровать по длине - не менее чем, n букв. Но есть ещё длинные суффиксы

источник

12:56пожаловаться #7

IS

Ilya Shutov in R (язык программирования)

по-моему, здесь утилитарная задача.
разложить резюме из интернета по собственным корзинкам.
эпизодические сбои некритичны.
это этап первичной фильтрации и сортировки.

источник

12:59пожаловаться #8

NK

Nikita Karlushin in R (язык программирования)

"а неудачники нам не нужны"? )

источник

12:59пожаловаться #9

NK

Nikita Karlushin in R (язык программирования)

думаю, что 5-6 букв будет достаточно именно для конкретной задачи, а не для исходного абстрактного примера. тут все-таки речь о конкретных должностях, пересечение там, где оно должно быть, будет большим

источник

13:00пожаловаться #10

IS

Ilya Shutov in R (язык программирования)

для них отдельная корзинка — "неклассифицированные"

источник

13:00пожаловаться #11

ГД

Григорий Демин... in R (язык программирования)

Я бы тогда все резюме лемматизировал через udpipe, потом tf-idf по леммам и кластеризация с косинусной дистанцией. Только по названию должности - много левого будет. Одних менеджеров миллион разных

источник

13:01пожаловаться #12

IS

Ilya Shutov in R (язык программирования)

постановка задачи — полный абстракт. подстройка параметров по реальным датасетам позволит эту сортировку сделать максимально возможным образом. остальное HR досмотрят сами.

Юля, бизнес-задачу правильно угадал?

источник

13:01пожаловаться #13

IS

Ilya Shutov in R (язык программирования)

тут же без полета просили. а так, udpipe хорошо

источник

13:02пожаловаться #14

ГД

Григорий Демин... in R (язык программирования)

Может, ещё LDA перед кластеризацией

источник

13:02пожаловаться #15

ГД

Григорий Демин... in R (язык программирования)

Ну это не полет, кода на так уж много

источник

13:03пожаловаться #16

IS

Ilya Shutov in R (язык программирования)

Юля сама его напишет? вопрос, скорее, в этом.
Цитата: "всем привет, есть простая задача"

источник

13:04пожаловаться #17

YK

Yulia Kuzmina in R (язык программирования)

Юля в курсе, что такое lda и косинусное расстояние, спасибо за беспокойство.

источник

13:05пожаловаться #18

IS

Ivan Struzhkov in R (язык программирования)

Регулярки уже предлагали? Там если корпус слов известен - можно масок руками наделать

источник

13:15пожаловаться #19

EP

Ed P in R (язык программирования)

У меня кровь из глаз потекла от такой фамильярности )

источник

13:18пожаловаться #20