Size: a a a

2021 January 20

ПФ

Паша Финкельштейн... in Moscow Spark
А прикиньте там результат курлов на диск на сервере не влезает
источник

PK

Pavel Klemenkov in Moscow Spark
А че, у всех экзекьюторы умеют в интернет ходить?
источник

K

KrivdaTheTriewe in Moscow Spark
Pavel Klemenkov
А че, у всех экзекьюторы умеют в интернет ходить?
иногда могут
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Pavel Klemenkov
А че, у всех экзекьюторы умеют в интернет ходить?
Не, но если очень надо - то через прокси можно
источник

ПФ

Паша Финкельштейн... in Moscow Spark
KrivdaTheTriewe
не использовать курл, а использовать библиотеку  джавовую
Ты опоздал на праздник жизни, это первое что я написал )))
источник

t

tenKe in Moscow Spark
Паша Финкельштейн
Ну ладно "миллион". 10 экзекьюторов по 10 запросов одновременных
упрется то все в какой нибудь фаер на границе. И какой нибудь 1% отвалится в итоге. Потом его отлавливать еще
источник

ПФ

Паша Финкельштейн... in Moscow Spark
tenKe
упрется то все в какой нибудь фаер на границе. И какой нибудь 1% отвалится в итоге. Потом его отлавливать еще
Или просто упрёшься в канал, интернет-то не только тебе нужен
источник

МН

Матвей Никонов... in Moscow Spark
Artem Kulbasov
Да, зачем тебе вообще курлы
Мне было это дано как единственный способ получить данные из БД.
источник

PK

Pavel Klemenkov in Moscow Spark
Матвей Никонов
Мне было это дано как единственный способ получить данные из БД.
Так это еще и БД? Ну тогда точно есть способы лучше
источник

ПФ

Паша Финкельштейн... in Moscow Spark
XY problem detected
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Что за БД?
источник

K

KrivdaTheTriewe in Moscow Spark
тогда есть еще один способ
источник

K

KrivdaTheTriewe in Moscow Spark
Return an RDD created by piping elements to a forked external process. The resulting RDD is computed by executing the given process once per partition. All elements of each input partition are written to a process's stdin as lines of input separated by a newline. The resulting partition consists of the process's stdout output, with each line of stdout resulting in one element of the output partition. A process is invoked even for empty partitions.
The print behavior can be customized by providing two functions.
Params:
command – command to run in forked process.
env – environment variables to set.
printPipeContext – Before piping elements, this function is called as an opportunity to pipe context data. Print line function (like out.println) will be passed as printPipeContext's parameter.
printRDDElement – Use this function to customize how to pipe elements. This function will be called with each RDD element as the 1st parameter, and the print line function (like out.println()) as the 2nd parameter. An example of pipe the RDD data of groupBy() in a streaming way, instead of constructing a huge String to concat all the elements:
                       def printRDDElement(record:(String, Seq[String]), f:String=>Unit) =
                         for (e <- record._2) {f(e)}
                       
separateWorkingDir – Use separate working directories for each task.
bufferSize – Buffer size for the stdin writer for the piped process.
encod
источник

K

KrivdaTheTriewe in Moscow Spark
rdd.pipe
источник

K

KrivdaTheTriewe in Moscow Spark
параллелизм управляется - количеством партиуий
источник

ПФ

Паша Финкельштейн... in Moscow Spark
KrivdaTheTriewe
Return an RDD created by piping elements to a forked external process. The resulting RDD is computed by executing the given process once per partition. All elements of each input partition are written to a process's stdin as lines of input separated by a newline. The resulting partition consists of the process's stdout output, with each line of stdout resulting in one element of the output partition. A process is invoked even for empty partitions.
The print behavior can be customized by providing two functions.
Params:
command – command to run in forked process.
env – environment variables to set.
printPipeContext – Before piping elements, this function is called as an opportunity to pipe context data. Print line function (like out.println) will be passed as printPipeContext's parameter.
printRDDElement – Use this function to customize how to pipe elements. This function will be called with each RDD element as the 1st parameter, and the print line function (like out.println()) as the 2nd parameter. An example of pipe the RDD data of groupBy() in a streaming way, instead of constructing a huge String to concat all the elements:
                       def printRDDElement(record:(String, Seq[String]), f:String=>Unit) =
                         for (e <- record._2) {f(e)}
                       
separateWorkingDir – Use separate working directories for each task.
bufferSize – Buffer size for the stdin writer for the piped process.
encod
Очень дорого плодить подпроцессы
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Зато одним wget можно выполнить много запросов ;)
источник

K

KrivdaTheTriewe in Moscow Spark
ну сделать так, чтобы в рамках команды, создавался один wget
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Да и одним curl тоже вроде бы
источник

K

KrivdaTheTriewe in Moscow Spark
ну так суть в этом)
источник