Size: a a a

2021 June 11

O

Onlinehead in ctodailychat
Нескромно спрошу - а почему бы не сделать это в Excel за пару минут без тротлига и зависаний?)
источник

A

Andrey in ctodailychat
Потому что целевой сервер банит
источник

O

Onlinehead in ctodailychat
Хехе, у меня по этому поводу есть забавный случай. Я был молод и горяч и надо было попарсить и повытягивать всякого из огромаднейшего отчета по биллингу от AWS. Кто его видел, тот поймет, это тот, который в csv выгружается. Штатный openoffice, у всех установленный, прожевать это не смог. Старенький 32-битный офис тоже падал (2003 кажется), переполнение там где-то случалось.
Я, как умный специалист с бэкграундом, поднял локально spark, залил в него все, написал там на питончике выборки и прочее. Ну, оно работало, но спарк и все такое. Тяжеленькое в общем.
В тот же примерно момент мой шеф просто купил лицуху последнего 64-битного офиса, накатил на винду и сделал то же самое в эксельке, 64 битная ее версия не падала на этом объеме. Примерно в тот момент я кажется что-то понял:)
Ну, зато у меня была причина таки попробовать pyspark, он тогда только-только появился.
источник

O

Onlinehead in ctodailychat
А, угу, дошло, я думал гугл сам троттлил. Да, логично)
источник

A

Andrey in ctodailychat
Гугл работает как прокси, который ещё и делает запросы с разных IP , чтобы скрыть от целевого сервера что его усиленно парсят
источник

A

Andrey in ctodailychat
Обычно берут платные прокси, тк бесплатные часто в бане…
источник

O

Onlinehead in ctodailychat
Да я понял суть
источник

СА

Сергей Аксёнов... in ctodailychat
Если справился 64-битный Эксель - наверняка бы справились и grep + sed + awk
источник

O

Onlinehead in ctodailychat
Наверняка. Но задачу формулами или питоном описать было проще, чем этой коллекцией. Так то, они вообще могут справиться очень много с чем, но кейс то все таки несколько другой.
источник

O

Onlinehead in ctodailychat
Всмысле учитывая пайпы то наверно лимит будет ну очень большим) как бы не безлимитным, практически, пока одна строка помещается в оперативку
источник

SG

Samat Galimov in ctodailychat
🚀
источник

A

Alexander in ctodailychat
источник

O

Onlinehead in ctodailychat
Шикарная картинка:))
источник

A

Alexander in ctodailychat
дааа 🙂
источник

СА

Сергей Аксёнов... in ctodailychat
источник
2021 June 12

A

Alex in ctodailychat
так это эксель надо гдето взять... и кодить в нем чтото (на чем кстати? на VBA?) у меня офиса отродясь не было.

а в гугл-sheets все классно и красиво.

var html = UrlFetchApp.fetch(url).getContentText();
Utilities.sleep(1000);

троттлит, кстати, сам гугл, да. у них встроенный рейт-лимит для умников, которые просто пишут прямо в ячейку =IMPORTHTML(A1...A100500)
источник

O

Onlinehead in ctodailychat
VBA, да.
источник

AR

Anton Revyako in ctodailychat
источник

AR

Anton Revyako in ctodailychat
источник

A

Alexander in ctodailychat
ахаха дааа
источник