Всем привет. Народ, а кто какие фреймворки на python для работы с данными на спарке встречал? Я вот знаю такие, но может что-то упустил/забыл:
- "родной" pySparkML. Но с точки зрения python он пипец какой страшный и неповоротливый
- Microsoft MLSpark. Выглядит многообещающе, считай как scikit-learn, только на спарке
- Photon ML от LinkedIn. Там мало всяких готовых трансформаций данных, акцент на обучении моделей
- PravdaML от ОК. Но там scala, интерфейс для питона надо самим писать, и акцент, опять же, на распределенном обучении