Size: a a a

2020 August 18

IV

Igor V in ctodailychat
Сергей Аксёнов
Уважаемые кроты, а кто что использует для хранения и версионирования ML-проектов: моделей, датасетов, вот этого вот всего? Кто что имеет сказать про связку https://dvc.org/ + https://cml.dev/ ?
Мы пилим свою платформу, но в своё время активно смотрели в сторону Predictive Model Markup Language


https://en.wikipedia.org/wiki/Predictive_Model_Markup_Language
источник

GA

Gleb Abroskin in ctodailychat
Сергей Аксёнов
Уважаемые кроты, а кто что использует для хранения и версионирования ML-проектов: моделей, датасетов, вот этого вот всего? Кто что имеет сказать про связку https://dvc.org/ + https://cml.dev/ ?
зависит от задач, моделей и фреймворков, которые в разработке, где-то и собственный велосипед сойдёт (делали так), где-то будет очень удобно в dvc или аналогах. Например, если все в sklearn, там для всего один интерфейс, все просто сериализовать — вообще 0 проблем руками что-то сделать.

Когда тыкали dvc год назад, было неудобно, что он в основном версионирует датасеты через файлы, а у нас все в базах, копию в виде файлов, мы бы не потянули.

CML пока не пробовали, но выглядит многообещающе

Кроме того, что вы скинули можно на catalyst посмотреть
источник

СА

Сергей Аксёнов... in ctodailychat
> is an XML-based
источник

СА

Сергей Аксёнов... in ctodailychat
Gleb Abroskin
зависит от задач, моделей и фреймворков, которые в разработке, где-то и собственный велосипед сойдёт (делали так), где-то будет очень удобно в dvc или аналогах. Например, если все в sklearn, там для всего один интерфейс, все просто сериализовать — вообще 0 проблем руками что-то сделать.

Когда тыкали dvc год назад, было неудобно, что он в основном версионирует датасеты через файлы, а у нас все в базах, копию в виде файлов, мы бы не потянули.

CML пока не пробовали, но выглядит многообещающе

Кроме того, что вы скинули можно на catalyst посмотреть
У нас питонячьи сервисы на pytorch и tensorflow
источник

IV

Igor V in ctodailychat
Какая разница как сериализуется, не руками же собирать.
источник

GA

Gleb Abroskin in ctodailychat
Сергей Аксёнов
У нас питонячьи сервисы на pytorch и tensorflow
Как я понимаю, более общий без xml — это https://onnx.ai
источник

GA

Gleb Abroskin in ctodailychat
Gleb Abroskin
Как я понимаю, более общий без xml — это https://onnx.ai
Не туда ответил, это было про pmml
источник

СА

Сергей Аксёнов... in ctodailychat
Igor V
Какая разница как сериализуется, не руками же собирать.
Инстинкт. Если разработчики выбрали XML - с ними что-то не так (они увязли в экосистеме Microsoft, например)
источник

СА

Сергей Аксёнов... in ctodailychat
Gleb Abroskin
зависит от задач, моделей и фреймворков, которые в разработке, где-то и собственный велосипед сойдёт (делали так), где-то будет очень удобно в dvc или аналогах. Например, если все в sklearn, там для всего один интерфейс, все просто сериализовать — вообще 0 проблем руками что-то сделать.

Когда тыкали dvc год назад, было неудобно, что он в основном версионирует датасеты через файлы, а у нас все в базах, копию в виде файлов, мы бы не потянули.

CML пока не пробовали, но выглядит многообещающе

Кроме того, что вы скинули можно на catalyst посмотреть
Спасибо!
источник

IV

Igor V in ctodailychat
Сергей Аксёнов
Инстинкт. Если разработчики выбрали XML - с ними что-то не так (они увязли в экосистеме Microsoft, например)
Ну так себе аргумент. Стандарт существует с середины девяностых.
источник

СА

Сергей Аксёнов... in ctodailychat
Igor V
Ну так себе аргумент. Стандарт существует с середины девяностых.
Именно)
источник

СА

Сергей Аксёнов... in ctodailychat
Нет, я согласен, что это предрассудок, но пару раз он уже спасал меня от блудняка)
источник

GA

Gleb Abroskin in ctodailychat
Сергей Аксёнов
У нас питонячьи сервисы на pytorch и tensorflow
если вы хотите воспроизводимость, по-моему, в это классно и просто умеет catalyst — сохраняет все файлы и окружение и все. Если хочется строить пайплайны (то есть сохранять результаты шагов, чтобы не пересчитывать) для работы с данными, то тут подход dvc будет интереснее, потому что позволяет поделить процесс на этапы и использовать  уже обработанные данные, НО это потребует дисциплины от тех, кто пишет модели. Дисциплина заключается в том, что все должно быть разложено по правильным файлам, правильно названо и делать какую-то небольшую часть работы. То есть обучать в jupyter не прокатит больше:)

(год назад писал по этому диплом, могу где-то обладать не последними знаниями.  но старался не наврать)
источник

СА

Сергей Аксёнов... in ctodailychat
Gleb Abroskin
если вы хотите воспроизводимость, по-моему, в это классно и просто умеет catalyst — сохраняет все файлы и окружение и все. Если хочется строить пайплайны (то есть сохранять результаты шагов, чтобы не пересчитывать) для работы с данными, то тут подход dvc будет интереснее, потому что позволяет поделить процесс на этапы и использовать  уже обработанные данные, НО это потребует дисциплины от тех, кто пишет модели. Дисциплина заключается в том, что все должно быть разложено по правильным файлам, правильно названо и делать какую-то небольшую часть работы. То есть обучать в jupyter не прокатит больше:)

(год назад писал по этому диплом, могу где-то обладать не последними знаниями.  но старался не наврать)
Спасибо!
источник

IZ

Igor Zinovev in ctodailychat
Sergey Zhuk
вопрос к людям, работающим по ИП: есть ли смысл оформлять электронную подпись и проходить эти 10 кругов ада с оформлением или проще 1 раз в год ходить в налоговую ножками и скидывать отчет?
я подпись не получал, сдаю отчеты через тиньков, там они как-то сами генерят подпись  и подтверждаешь через смску. Те по факту ничего не ставил дополнительно и не ходил никуда. С эльбой сравнить не могу, но тиньковым удоволетворен
источник

DB

Dmitry Belyaev in ctodailychat
божественно))
источник

SZ

Sergey Zhuk in ctodailychat
Igor Zinovev
я подпись не получал, сдаю отчеты через тиньков, там они как-то сами генерят подпись  и подтверждаешь через смску. Те по факту ничего не ставил дополнительно и не ходил никуда. С эльбой сравнить не могу, но тиньковым удоволетворен
Спасибо за совет, но уже поздно, вписался в Эльбу :(
источник

DB

Dmitry Belyaev in ctodailychat
Кто-нибудь пользовался ноутбуками «специально под Линукс»? В интернете увидел нахваливают ноут от System76, но по перформансу сравнений почти нет. Действительно на них лучше работает тот же Ubuntu?
источник

NK

Nikita Kulikov in ctodailychat
Ну, как минимум, он устанавливается, наверно
источник

NK

Nikita Kulikov in ctodailychat
Уже лучше 99% ноутов
источник