Size: a a a

2020 December 20

EC

Eugene Chipizubov in Moscow Spark
Over странная херня приключилась
При приземлении таблички в папке создается две группы файлов отличающихся только uuid, например:
part-00000-xyz-c000.snappy.parquet
part-00000-zyx-c000.snappy.parquet
part-00001-xyz-c000.snappy.parquet
part-00001-zyx-c000.snappy.parquet
источник

EC

Eugene Chipizubov in Moscow Spark
Spark 3.0.1
источник

EC

Eugene Chipizubov in Moscow Spark
Не спотыкался ли кто либо еще о такое поведение?
источник

EC

Eugene Chipizubov in Moscow Spark
Возникает рандомно по времени, даже при невысокой нагрузке на кластер
источник
2020 December 21

ЕГ

Евгений Глотов... in Moscow Spark
Eugene Chipizubov
Не спотыкался ли кто либо еще о такое поведение?
А точно никто по второму разу то же самое не запускает?
источник

ЕГ

Евгений Глотов... in Moscow Spark
С таким сталкивался)
источник

EC

Eugene Chipizubov in Moscow Spark
клянутся, что нет, отчасти верю так как запускают в юпитере
источник

ЕГ

Евгений Глотов... in Moscow Spark
В юпитере можно как раз случайно запустить два раза так, что не заметишь
источник

ЕГ

Евгений Глотов... in Moscow Spark
Одну ячейку два раза запустить, не дожидаясь результата
источник

ЕГ

Евгений Глотов... in Moscow Spark
Проверьте спарк-сессии ребят
источник

EC

Eugene Chipizubov in Moscow Spark
чтобы исключить мультиконтекст, попросил временную папку сделать под каждый запуск изолированной
источник

ЕГ

Евгений Глотов... in Moscow Spark
В одной сессии просто последовательно бывает два одинаковых джоба бегают
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если там аппенд, ну вот и будет задвоение
источник

EC

Eugene Chipizubov in Moscow Spark
вот это уже интересно
источник

EC

Eugene Chipizubov in Moscow Spark
у него overwrite
источник

ЕГ

Евгений Глотов... in Moscow Spark
🤔
источник

EC

Eugene Chipizubov in Moscow Spark
еще момент интересный, что после перезапуска запроса на выходе получается другое кол-во файлов
источник

ЕГ

Евгений Глотов... in Moscow Spark
Без репартишена?
источник

EC

Eugene Chipizubov in Moscow Spark
да (
источник

SM

Sergey M in Moscow Spark
Всем привет
У меня такой вопрос
Можно ли каким-нибудь образом проверить есть ли item в dataset'e
Т.е. что-то типо
dataset.contains(item)
или
item existsIn(dataset)
Можно конечно filter.count, но мне кажется эти операции более тяжеловесны чем предполагаемый exists

По большому счету мне надо
if (dataset contains item) 1 else 0
источник