Телеграмм чат группы moscowspark страница 691

Артем Анистратов... in Moscow Spark

09:52пожаловаться #1

АА

 @annotation.tailrec
  def retry[T](n: Int)(fn: => T): T = {
    util.Try {
      fn
    } match {
      case util.Success(x) => x
      case _ if n > 1 => retry(n - 1)(fn)
      case util.Failure(e) => throw e
    }
  }

Встреча руcскоязычных админов Hadoop

09:53пожаловаться #2

Oleg Ivchenko in Moscow Spark

Переслано от Oleg Ivchenko

Всем привет!

Приглашаем поучаствовать в русскоязычном MeetUp администраторов экосистемы Hadoop, который пройдет 2 июля 2021г. с 18 до 23 часов.
Организаторы: лаборатория инноватики МФТИ и МТС.

В программе четыре докладчика из МФТИ, МТС, Yandex и Swisscom. Они расскажут как у них живёт Hadoop, какие проблемы возникают при администрировании и как решаются.
С учетом того что Cloudera стала платной, будет особенно интересно послушать про продукт Yandex.Dataproc (это Hadoop от Яндекс.Облака) и про опыт переезда инфраструктуры с Hadoop на Kubernetes.

Приглашаются все желающие! Подробности см. на сайте https://hadoop-admins.ru .

hadoop-admins.ru

Hadoop meetUp

14:48пожаловаться #3

Дмитрий in Moscow Spark

Спасибо, но в моем случае это не работает. Так как падает екзекутор.

23:08пожаловаться #4

2021 June 09

Andrey Smirnov in Moscow Spark

интересно, а как вы видите такой мердж, в одной схеме это условно Int, в другой String, как он должен работать?

21:12пожаловаться #5

Дмитрий in Moscow Spark

Мне нужно не развалится, для того чтобы продолжить обработку схем. Конечно я не буду мержить такие схемы. Но я уже сделал, по файлово собрал схемы ....

21:14пожаловаться #6

2021 June 10

ПБ

Привет! Скажите пожалуйста, есть 2 паралельных процесса загрузки данных. Один является источником другого, и когда они пересекаются, просходит ошибка. В спарке есть возможность грязного чтения?

09:58пожаловаться #7

Nail in Moscow Spark

Это больше зависит от источника, чем от спарка. Что за источники то?

10:34пожаловаться #8

ПБ

Загрузка данных из бд mssql

10:55пожаловаться #9

Nail in Moscow Spark

Я не спец по mssql, но мне кажется он не позволяет

11:14пожаловаться #10

ПБ

вот что пишет spark
It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/Data

11:16пожаловаться #11

ИК

Может есть материализация в файловом сторадже, первый процесс её формирует, второй читает. Это вполне согласуется со схемой «Один является источником другого». Если они пересекаются, то файлы действительно могут быть обновлены и это должно вызвать ошибку. JDBC для mssql про файлы ничего не напишет

11:23пожаловаться #12

ПБ

спасибо, собственно и был вопрос как эту ошибку избежать? Из-за того что обновилась 1 строчка, ронять всю обработку не правильно

11:27пожаловаться #13

ИК

Вообще, правильно, потому что спарк же не знает точно, надо ему продолжать или нет. InMemoryFileIndex держит файлы в кеше, можно обновить в том числе через df.queryExecution.analyzed.refresh(), при этом индекс будет заново читать файлы. Разумеется, это не во время чтения!

val IGNORE_MISSING_FILES = buildConf("spark.sql.files.ignoreMissingFiles")
.doc("Whether to ignore missing files. If true, the Spark jobs will continue to run when " +
"encountering missing files and the contents that have been read will still be returned.")
.booleanConf
.createWithDefault(false)
Это из SQLConf, можете выставить в true, но я предупреждаю, что это выстрел в ногу

11:30пожаловаться #14

ПБ

спасибо, т.е .идея перед второй обработкой, обновить предыдущую таблицу?

11:33пожаловаться #15

ИК

Основная идея в том, что эти процессы не должны пересекаться во времени

11:34пожаловаться #16

ПБ

тек себе идея )
у вас есть транзакционная табличка в которую пишутся данные каждую секунду
и вы раз в час хотите посчитать количество строк. понятно что раз в час процессы пересекутся )

11:38пожаловаться #17

Nail in Moscow Spark

Проще в этом случае читать непосредственно файлы под таблицей

11:39пожаловаться #18

ИК

У меня такой таблички нет))
И я сомневаюсь, что причина в таблице БД

11:39пожаловаться #19

ИК

Они в любом случае читаются, если таблица из файлов