Size: a a a

2021 June 08

Д

Дмитрий in Moscow Spark
Конечно интересно.
источник

АА

Артем Анистратов... in Moscow Spark
@annotation.tailrec
 def retry[T](n: Int)(fn: => T): T = {
   util.Try {
     fn
   } match {
     case util.Success(x) => x
     case _ if n > 1 => retry(n - 1)(fn)
     case util.Failure(e) => throw e
   }
 }
источник

OI

Oleg Ivchenko in Moscow Spark
Переслано от Oleg Ivchenko
Всем привет!

Приглашаем поучаствовать в русскоязычном MeetUp администраторов экосистемы Hadoop, который пройдет 2 июля 2021г. с 18 до 23 часов.
Организаторы: лаборатория инноватики МФТИ и МТС.

В программе четыре докладчика из МФТИ, МТС, Yandex и Swisscom. Они расскажут как у них живёт Hadoop, какие проблемы возникают при администрировании и как решаются.
С учетом того что Cloudera стала платной, будет особенно интересно послушать про продукт Yandex.Dataproc (это Hadoop от Яндекс.Облака) и про опыт переезда инфраструктуры с Hadoop на Kubernetes.

Приглашаются все желающие! Подробности см. на сайте https://hadoop-admins.ru .
источник

Д

Дмитрий in Moscow Spark
Спасибо, но в моем случае это не работает. Так как падает екзекутор.
источник
2021 June 09

AS

Andrey Smirnov in Moscow Spark
интересно, а как вы видите такой мердж, в одной схеме это условно Int, в другой String,  как он должен работать?
источник

Д

Дмитрий in Moscow Spark
Мне нужно не развалится, для того чтобы продолжить обработку схем. Конечно я не буду мержить такие схемы. Но я уже сделал, по файлово собрал схемы ....
источник
2021 June 10

ПБ

Повелитель Бури... in Moscow Spark
Привет! Скажите пожалуйста, есть 2 паралельных процесса загрузки данных. Один является источником другого, и когда они пересекаются, просходит ошибка. В спарке есть возможность грязного чтения?
источник

N

Nail in Moscow Spark
Это больше зависит от источника, чем от спарка. Что за источники то?
источник

ПБ

Повелитель Бури... in Moscow Spark
Загрузка данных из бд mssql
источник

N

Nail in Moscow Spark
Я не спец по mssql, но мне кажется он не позволяет
источник

ПБ

Повелитель Бури... in Moscow Spark
вот что пишет spark
It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/Data
источник

ИК

Иван Калининский... in Moscow Spark
Может есть материализация в файловом сторадже, первый процесс её формирует, второй читает. Это вполне согласуется со схемой «Один является источником другого». Если они пересекаются, то файлы действительно могут быть обновлены и это должно вызвать ошибку. JDBC для mssql про файлы ничего не напишет
источник

ПБ

Повелитель Бури... in Moscow Spark
спасибо, собственно и был вопрос как эту ошибку избежать? Из-за того что обновилась 1 строчка, ронять всю обработку не правильно
источник

ИК

Иван Калининский... in Moscow Spark
Вообще, правильно, потому что спарк же не знает точно, надо ему продолжать или нет. InMemoryFileIndex держит файлы в кеше, можно обновить в том числе через df.queryExecution.analyzed.refresh(), при этом индекс будет заново читать файлы. Разумеется, это не во время чтения!

val IGNORE_MISSING_FILES = buildConf("spark.sql.files.ignoreMissingFiles")
 .doc("Whether to ignore missing files. If true, the Spark jobs will continue to run when " +
   "encountering missing files and the contents that have been read will still be returned.")
 .booleanConf
 .createWithDefault(false)
Это из SQLConf, можете выставить в true, но я предупреждаю, что это выстрел в ногу
источник

ПБ

Повелитель Бури... in Moscow Spark
спасибо, т.е .идея перед второй обработкой, обновить предыдущую таблицу?
источник

ИК

Иван Калининский... in Moscow Spark
Основная идея в том, что эти процессы не должны пересекаться во времени
источник

ПБ

Повелитель Бури... in Moscow Spark
тек себе идея )
у вас есть транзакционная табличка в которую пишутся данные каждую секунду
и вы раз в час хотите посчитать количество строк. понятно что раз в час процессы пересекутся )
источник

N

Nail in Moscow Spark
Проще в этом случае читать непосредственно файлы под таблицей
источник

ИК

Иван Калининский... in Moscow Spark
У меня такой таблички нет))
И я сомневаюсь, что причина в таблице БД
источник

ИК

Иван Калининский... in Moscow Spark
Они в любом случае читаются, если таблица из файлов
источник