Size: a a a

R (язык программирования)

2020 December 13

A

Andrey in R (язык программирования)
если там что-то пилится в прод, то это больше про докеры с airflow всякими, не?
источник

A

Andrey in R (язык программирования)
и как выглядит у тебя сейчас обучение моделей на R без фрейворков? Руками пишешь кросс-валидацию, импутации, кодирования факторов, метрики?
источник

AS

Alexander Semenov in R (язык программирования)
В идеальном мире должно быть так. Но что-то мне подсказывает, что в реальности чаще в требованиях стоит "уверенное знание Python, sklearn и т.д.". Т.е. люди явно ждут другой стэк и вряд ли там кого убедишь в том, что модель на R ничем не отличается от модели в питоне.
источник

AS

Alexander Semenov in R (язык программирования)
Andrey
и как выглядит у тебя сейчас обучение моделей на R без фрейворков? Руками пишешь кросс-валидацию, импутации, кодирования факторов, метрики?
Руками пишу library(catboost).
источник

A

Andrey in R (язык программирования)
а если нужна линейная модель или кластеризация какая? Или time series?
источник

AS

Alexander Semenov in R (язык программирования)
Но тут, конечно, моя ситуация может быть специфичной. Я с марта 2018 по работе никаких моделей не обучаю. Весной 2019 вошёл в психологически комфортный квантиль на иднусском кеггле и с тех пор обучаю модели только в режиме "мне просто посмотреть".
источник

AS

Alexander Semenov in R (язык программирования)
Andrey
а если нужна линейная модель или кластеризация какая? Или time series?
Ради time series в питон лезть глупо, да. Последнюю линейную модель по работе я построил летом 2016 года. Но я не думаю, что в питоне с ними и кластеризацией есть проблемы.
источник

AS

Alexander Semenov in R (язык программирования)
Можно было бы поставить вопрос гораздо более радикально: зачем вообще заниматься ML в R? Но за настолько дерзкий вброс я сейчас отвечать не готов (делами занят).
источник

AS

Alexander Semenov in R (язык программирования)
Andrey
если там что-то пилится в прод, то это больше про докеры с airflow всякими, не?
Хотя вот этот аргумент мне понравился. С него можно в среде питонистов начинать набрасывать.
источник

ГД

Григорий Демин... in R (язык программирования)
насчет прода, R, питона и переписывания туда-сюда. Создалось у меня впечатление, что если прод поддерживают хардкорные бэкендеры, то они к своему бэку разную чернь в виде дата сатанистов и прочих аналитиков и на пушечный выстрел не подпустят. А если прод поддерживают люди полиберальнее, то будет докер-контейнер, в котором можно гонять все, что угодно. Но должны быть люди, которые умеют поддерживать это "все, что угодно".
У меня однажды мое творение ребята первого типа переписывали с R на Питон. Я поглядел, что у них в результате получилось - даже если бы я изначально писал на Питоне, все равно бы пришлось переписывать. Никакого пандаса, numpy и sklearn там и в помине не было.  
А второй раз был протипчик изначально на питоне. Его оставили, но вокруг наворотили еще раза в два-три большее количество обслуживающего кода с разными async/await. Тоже вряд ли бы я с нуля такое написал бы
источник

AS

Alexander Semenov in R (язык программирования)
Ну вот и я считаю, что в эпоху докеров и кубернетесов людей не должно особо парить то, что внутри этих докеров. Но мне кажется, что для работодателей это тупо как фильтр: Python -- меньше хлопот со стэком. А с рандомным товаRищем ещё поди разберись, что он там знает и умеет.
источник

ВП

Владимир Попукайло... in R (язык программирования)
Григорий Демин
насчет прода, R, питона и переписывания туда-сюда. Создалось у меня впечатление, что если прод поддерживают хардкорные бэкендеры, то они к своему бэку разную чернь в виде дата сатанистов и прочих аналитиков и на пушечный выстрел не подпустят. А если прод поддерживают люди полиберальнее, то будет докер-контейнер, в котором можно гонять все, что угодно. Но должны быть люди, которые умеют поддерживать это "все, что угодно".
У меня однажды мое творение ребята первого типа переписывали с R на Питон. Я поглядел, что у них в результате получилось - даже если бы я изначально писал на Питоне, все равно бы пришлось переписывать. Никакого пандаса, numpy и sklearn там и в помине не было.  
А второй раз был протипчик изначально на питоне. Его оставили, но вокруг наворотили еще раза в два-три большее количество обслуживающего кода с разными async/await. Тоже вряд ли бы я с нуля такое написал бы
pandas то ладно. Но как без numpy?
источник

ГД

Григорий Демин... in R (язык программирования)
Владимир Попукайло
pandas то ладно. Но как без numpy?
Ну, этот сервис только инференс делал - никаких матричных операций не надо было. Там скорее иерархические структуры данных были нужны
источник

ГД

Григорий Демин... in R (язык программирования)
Alexander Semenov
Хотя вот этот аргумент мне понравился. С него можно в среде питонистов начинать набрасывать.
Если набрасывать, то лучше еще радикальнее: что Pandas и tensorflow - это не Python и имеют к нему крайне косвенное отношение)
источник

AS

Alexander Semenov in R (язык программирования)
Григорий Демин
Если набрасывать, то лучше еще радикальнее: что Pandas и tensorflow - это не Python и имеют к нему крайне косвенное отношение)
А за такие слова, батенька, можно и партбилет на стол положить (с).
источник

ГД

Григорий Демин... in R (язык программирования)
Ну а чего, так оно и есть. Встречал людей, которые фигачили на пандасе, но циклы не умели
источник

AS

Alexander Semenov in R (язык программирования)
Без статистики судить трудно, но с одним Python в резюме, ИМХО, у работодателя велик риск нарваться на типичного "выпускника курсеры".
источник

АК

Артём Клевцов... in R (язык программирования)
Думается, под «продом» в большинстве случаев понимается слишком широкой диапазон явлений и люди, как правило ведут дискуссию о совершенно разных вещах.
источник

PU

Philipp Upravitelev in R (язык программирования)
Григорий Демин
Если набрасывать, то лучше еще радикальнее: что Pandas и tensorflow - это не Python и имеют к нему крайне косвенное отношение)
меня всегда это удивляло, кстати.
источник

АК

Артём Клевцов... in R (язык программирования)
В чём проблема использовать в «проде» кросплатформенные фреймворки, вроде Apache Spark или H2O? Основные алгоритмы там реализованы.
источник