Всем привет. Прервем неловкое постновогоднее молчание. Читая рассылку Спарка, наткнулся на такой любопытный проект
https://github.com/dmmiller612/sparktorch. В чем фишка? Чувак, как и тысячи других энтузиастов, прикрутил очередной DL-framework к Спарку. Все, в общем, обычно. Data parallel learning, parameter server (написан, правда, руками и на Flask). Однако разработчик заморочился и сделал нормальую поддержку Spark ML Pipeline. Т.е. реализовал полноценный кастомный трансформер и кастомный эстиматор. Печально, конечно, что не используется конвертация партиций через arrow (должно быть сильно быстрее). Зато есть поддержка синхронного обучения через barrier execution mode в Spark. В общем, крайне любопытный проект.