Size: a a a

R (язык программирования)

2021 February 17

AS

Alexander Semenov in R (язык программирования)
Да, я одно время крутил их песни в плеере, когда ещё на вокале был легендарный Вова Иванов.
источник

ВК

Василий Ключарев... in R (язык программирования)
Igor Yegin
Кстати, а кто-нибудь ходил на курсы Марка Шафира по анализу данных? Как он вам?
Он сейчас свою школу запустил даже))

https://radar-school.ru/
источник

AS

Alexander Semenov in R (язык программирования)
И правильно сделал.
источник

МA

Михаил Ad.fesha... in R (язык программирования)
Всем добрый день)
Вопрос, кто нить пользовался библиотекой RemixAutoMl ? Какие впечатления/отзывы могли бы оставить ?
источник

MM

Mikle Mikle in R (язык программирования)
Михаил Ad.fesha
Всем добрый день)
Вопрос, кто нить пользовался библиотекой RemixAutoMl ? Какие впечатления/отзывы могли бы оставить ?
Нет, но все собираюсь. Если вдруг попробуете - буду рад отзывам))
источник

МA

Михаил Ad.fesha... in R (язык программирования)
Я собственно им воспользовался, оч понравилось, но там есть ряд тонких нюансов, например АРИМА - пока подберет прям очень приятные параметры - повесится можно. И не совсем понятно про панельные данные, не нашел нормального примера с прогнозом. Оценку скора - пожалуйста а для того, что бы реально в прод выкинуть - функция нид, аналог predict или forecast. Но увы, такой не нашел.
Хотел сравнить производительность на м5
источник

MM

Mikle Mikle in R (язык программирования)
Друзья, такой вопрос.
Хочу смэтчить две базы по ФИО и как часто это бывает какие-то ФИО могут быть записаны криво. Не "Иванов Петр Иванович", а "Иванов п.и." или "Петр Иванов Иванович", ну и тп.
Что гуглить и в какую сторону смотреть? Как подступиться?
источник

PU

Philipp Upravitelev in R (язык программирования)
Mikle Mikle
Друзья, такой вопрос.
Хочу смэтчить две базы по ФИО и как часто это бывает какие-то ФИО могут быть записаны криво. Не "Иванов Петр Иванович", а "Иванов п.и." или "Петр Иванов Иванович", ну и тп.
Что гуглить и в какую сторону смотреть? Как подступиться?
в первую очередь  надо запастись полотенцем для утирания слез

к сожалению, это не очень хорошо решаемая задача. можно пытаться искать пересечения строковые, например, выделять фамилию и по ней искать множество строк с такой фамилией. но это коллизия, все равно. притом, простыми средствами не разделить фамилию от имени, поэтому при перепутанном порядке фио вообще тоска получается.
я бы, наверное, попробовал все привести к виду "иванов п и" - то есть, нижний регистр, по первой букве от имени и отчества, почистить пробелы и пунктуацию
источник

MM

Mikle Mikle in R (язык программирования)
Philipp Upravitelev
в первую очередь  надо запастись полотенцем для утирания слез

к сожалению, это не очень хорошо решаемая задача. можно пытаться искать пересечения строковые, например, выделять фамилию и по ней искать множество строк с такой фамилией. но это коллизия, все равно. притом, простыми средствами не разделить фамилию от имени, поэтому при перепутанном порядке фио вообще тоска получается.
я бы, наверное, попробовал все привести к виду "иванов п и" - то есть, нижний регистр, по первой букве от имени и отчества, почистить пробелы и пунктуацию
😅 ахахах
видимо остановлюсь на просто мэтчинге в тупую с очищенным от пробелов, пунктуации и капса написанием. Большая часть смэтчилась и видимо такие пляски с бубном не стоят дополнительных пары процентов данных.
источник

MM

Mikle Mikle in R (язык программирования)
Philipp Upravitelev
в первую очередь  надо запастись полотенцем для утирания слез

к сожалению, это не очень хорошо решаемая задача. можно пытаться искать пересечения строковые, например, выделять фамилию и по ней искать множество строк с такой фамилией. но это коллизия, все равно. притом, простыми средствами не разделить фамилию от имени, поэтому при перепутанном порядке фио вообще тоска получается.
я бы, наверное, попробовал все привести к виду "иванов п и" - то есть, нижний регистр, по первой букве от имени и отчества, почистить пробелы и пунктуацию
а всякие text distances и fuzzy joins тоже не стоят свеч в этом случае?
https://predictivehacks.com/how-to-apply-text-distances-and-fuzzy-joins/
источник

ДВ

Дмитрий Володин... in R (язык программирования)
Если у вас после обычного мэтчинга остаётся процент неопределённых данных, то проще руками, поверьте. Эти штуки ещё и затратные по вычислениям, можно долго просидеть в ожидании чуда на большом датасете, а чуда так и не случится)
источник

IY

Igor Yakubovskiy in R (язык программирования)
Дмитрий Володин
Если у вас после обычного мэтчинга остаётся процент неопределённых данных, то проще руками, поверьте. Эти штуки ещё и затратные по вычислениям, можно долго просидеть в ожидании чуда на большом датасете, а чуда так и не случится)
+++
источник

PU

Philipp Upravitelev in R (язык программирования)
если процент небольшой, то я не уверен, что оно стоит того. плюс расстояния и нечеткий матчинг, боюсь, плозхо будут работать с ситуации Иван Петрович и Иван П - расстояние/разница тут, например, в семь добавленных букв
источник

h

helby in R (язык программирования)
Подскажите, а возможно ли с R спарсить такую таблицу, учитывая что таблица не на одной странице, что нужно выбирать следующие листы?
источник

h

helby in R (язык программирования)
источник

PU

Philipp Upravitelev in R (язык программирования)
судя по тому, что там динамически подгружаются данные - тут нужен RSelenium, там есть инструменты, которые позволяют нажимать на кнопки и таким образом ходить по загрузкам.

саму таблицу вытащить не проблема, но вот ходить по частям таблицы - тут надо пробовать
источник

h

helby in R (язык программирования)
Понял, спасибо большое)
источник

h

helby in R (язык программирования)
Philipp Upravitelev
судя по тому, что там динамически подгружаются данные - тут нужен RSelenium, там есть инструменты, которые позволяют нажимать на кнопки и таким образом ходить по загрузкам.

саму таблицу вытащить не проблема, но вот ходить по частям таблицы - тут надо пробовать
Ещё вопрос.

Я просто смотрю код страницы, и блок с таблицей не меняется при нажатии кнопки второй страницы.

Возможно через RVest в таком случае можно?
источник

ЮМ

Юта Мата Ссс... in R (язык программирования)
Mikle Mikle
Друзья, такой вопрос.
Хочу смэтчить две базы по ФИО и как часто это бывает какие-то ФИО могут быть записаны криво. Не "Иванов Петр Иванович", а "Иванов п.и." или "Петр Иванов Иванович", ну и тп.
Что гуглить и в какую сторону смотреть? Как подступиться?
В своё время решали подобную задачу ручками, применяя всякие эвристики, типа:
— если оканчивается на «-вич»\«-вна» это скорее всего отчество,
— то что стоит перед «оглы» это отчество,
— перед отчеством как правило пишут имя
и т.п.
источник

MM

Mikle Mikle in R (язык программирования)
Ага, спасибо!
источник