Телеграмм чат группы moscowspark страница 505

Добрый день.
Подскажите, запускаю модель lgbm на спарке (mmlspark). Два раза обучаю модель на одних и тех же данных и два раза делаю предсказание. Получаю два разных результата. Они отличаются не сильно, но отличаются. В чем может быть проблема?

источник

14:38пожаловаться #5

AS

Andrey Smirnov in Moscow Spark

Вячеслав Колосков

Добрый день.
Подскажите, запускаю модель lgbm на спарке (mmlspark). Два раза обучаю модель на одних и тех же данных и два раза делаю предсказание. Получаю два разных результата. Они отличаются не сильно, но отличаются. В чем может быть проблема?

Slightly different result between runs

This could happen, due to non-determinism in floating point summation order and multi-threading. Though the general accuracy will usually remain the same.

плюс, вы random.seed выставляете одним и тем же?

источник

14:46пожаловаться #6

ВК

Вячеслав Колосков... in Moscow Spark

Andrey Smirnov

Slightly different result between runs

This could happen, due to non-determinism in floating point summation order and multi-threading. Though the general accuracy will usually remain the same.

плюс, вы random.seed выставляете одним и тем же?

а где random.seed устанавливается? в локальной версии lgbm есть параметр random_seed. а в спарк версии его нет (есть параметр baggingSeed но он не помогает).

источник

15:22пожаловаться #7

AS

Andrey Smirnov in Moscow Spark

Вячеслав Колосков

а где random.seed устанавливается? в локальной версии lgbm есть параметр random_seed. а в спарк версии его нет (есть параметр baggingSeed но он не помогает).

видимо его нет, кроме того даже локально никто не гарантирует что результаты буду повторяться, а тут я думаю после этого уже можно дальше не смотреть
https://github.com/Azure/mmlspark/blob/master/src/main/scala/com/microsoft/ml/spark/lightgbm/LightGBMBase.scala#L31

GitHub

Azure/mmlspark

Microsoft Machine Learning for Apache Spark. Contribute to Azure/mmlspark development by creating an account on GitHub.

источник

17:54пожаловаться #8

A

Anton Lebedevich in Moscow Spark

Andrey Smirnov

видимо его нет, кроме того даже локально никто не гарантирует что результаты буду повторяться, а тут я думаю после этого уже можно дальше не смотреть
https://github.com/Azure/mmlspark/blob/master/src/main/scala/com/microsoft/ml/spark/lightgbm/LightGBMBase.scala#L31

GitHub

Azure/mmlspark

Microsoft Machine Learning for Apache Spark. Contribute to Azure/mmlspark development by creating an account on GitHub.

в самом lightgbm локально в однопоточном режиме при зафиксированных сидах все отлично повторяется

источник

18:33пожаловаться #9

AS

Andrey Smirnov in Moscow Spark

А в многопоточном?

источник

18:38пожаловаться #10

2021 January 15