Size: a a a

Startup never sleeps

2021 February 10

D

Danya in Startup never sleeps
Daniil Okhlopkov
ничего не понятно( жалко нет примера выходных данных в Readme.
Ну он такой, да
источник

D

Danya in Startup never sleeps
Daniil Okhlopkov
ничего не понятно( жалко нет примера выходных данных в Readme.
https://m.habr.com/ru/post/527588/
Зато можно чекнуть хабр :D
источник

DO

Daniil Okhlopkov in Startup never sleeps
спасибо
источник

DO

Daniil Okhlopkov in Startup never sleeps
не, это не то, что надо. 🙁
источник

DO

Daniil Okhlopkov in Startup never sleeps
#Идея: html -> фичи #Идея: html -> фичи (опенс сорс)

Очень часто приходится работать с веб-страницами. При этом также часто нужно информацию о них складывать в таблицу (например, для поиска или для ML). Нужен инструмент, который на вход получает ссылку / html, а на выходе выдает структурированный JSON с фичами, которые дальше либо складываются в бд, либо обрабатываются.

Эту задачу приходится делать каждый раз с нуля. Было бы круто иметь библиотеку / микросервис, который бы сам структурировал данные из HTML. Подобная штука есть для Reading view (достает заголовки, тексты, картинки из статьи, чтобы только их отобразить).

Примеры фичей, которые можно считать:
1) метатеги: title, description, keywords, logo, OG graph tags, Twitter graph tags
2) содержимое: весь текст со страницы,
3) исходящие ссылки на внутренние страницы, на внешние
4) время загрузки страницы, редиректы, айпишник, страна

Выдавая свойства страницы в структурированном виде позволит гораздо быстрее анализировать содержимое.  И да, все это уже всеми делалось миллионы раз с нуля. Поэтому нужна либа. Готов поменторить.
источник

ZZ

Zigfrid Zvezdin in Startup never sleeps
#срочно
Нашли двух собак на обочине шоссе, что лучше сделать? Кто в этом разбирается?
источник

ZZ

Zigfrid Zvezdin in Startup never sleeps
Daniil Okhlopkov
#Идея: html -> фичи #Идея: html -> фичи (опенс сорс)

Очень часто приходится работать с веб-страницами. При этом также часто нужно информацию о них складывать в таблицу (например, для поиска или для ML). Нужен инструмент, который на вход получает ссылку / html, а на выходе выдает структурированный JSON с фичами, которые дальше либо складываются в бд, либо обрабатываются.

Эту задачу приходится делать каждый раз с нуля. Было бы круто иметь библиотеку / микросервис, который бы сам структурировал данные из HTML. Подобная штука есть для Reading view (достает заголовки, тексты, картинки из статьи, чтобы только их отобразить).

Примеры фичей, которые можно считать:
1) метатеги: title, description, keywords, logo, OG graph tags, Twitter graph tags
2) содержимое: весь текст со страницы,
3) исходящие ссылки на внутренние страницы, на внешние
4) время загрузки страницы, редиректы, айпишник, страна

Выдавая свойства страницы в структурированном виде позволит гораздо быстрее анализировать содержимое.  И да, все это уже всеми делалось миллионы раз с нуля. Поэтому нужна либа. Готов поменторить.
Первый к этому шаг - https://github.com/alirezamika/autoscraper
источник

AS

Alex Sh in Startup never sleeps
#whois
Студент 2 курса ВМК МГУ
Писал на разных ЯП(Паскаль, С,С++, АСМ, Python)
В последнее время осваиваю Flask(первый опыт, связанный с бэком)
Изучал и изучаю NLP
Писал свои классификаторы, игрался с GPT-3 от сбера, учил его о чесать на вопросы
В дальнейшем хочу написать приложение для аналитики крипты(чтобы контролировать свои финансы и видеть наглядно сделки, объемы и прибыль), если уже есть такое, то буду рад узнать о нем, лично искал, но не нашёл
Также хочу найти какие-нибудь полезные применения нейронок для себя и для людей в целом и по возможности воплотить это в жизнь.
Хочу спросить: Mac/Mac mini для программиста-датасайнтиста - годный инструмент или аналоги лучше(к примеру, colab)?
источник

В

Вахтер in Startup never sleeps
Alex Sh
#whois
Студент 2 курса ВМК МГУ
Писал на разных ЯП(Паскаль, С,С++, АСМ, Python)
В последнее время осваиваю Flask(первый опыт, связанный с бэком)
Изучал и изучаю NLP
Писал свои классификаторы, игрался с GPT-3 от сбера, учил его о чесать на вопросы
В дальнейшем хочу написать приложение для аналитики крипты(чтобы контролировать свои финансы и видеть наглядно сделки, объемы и прибыль), если уже есть такое, то буду рад узнать о нем, лично искал, но не нашёл
Также хочу найти какие-нибудь полезные применения нейронок для себя и для людей в целом и по возможности воплотить это в жизнь.
Хочу спросить: Mac/Mac mini для программиста-датасайнтиста - годный инструмент или аналоги лучше(к примеру, colab)?
@LinFerrr, Спасибо, вы приняты в сообщество! У нас целая экосистема чатов, подробнее в закрепленном сообщении.
источник

D

Danya in Startup never sleeps
Alex Sh
#whois
Студент 2 курса ВМК МГУ
Писал на разных ЯП(Паскаль, С,С++, АСМ, Python)
В последнее время осваиваю Flask(первый опыт, связанный с бэком)
Изучал и изучаю NLP
Писал свои классификаторы, игрался с GPT-3 от сбера, учил его о чесать на вопросы
В дальнейшем хочу написать приложение для аналитики крипты(чтобы контролировать свои финансы и видеть наглядно сделки, объемы и прибыль), если уже есть такое, то буду рад узнать о нем, лично искал, но не нашёл
Также хочу найти какие-нибудь полезные применения нейронок для себя и для людей в целом и по возможности воплотить это в жизнь.
Хочу спросить: Mac/Mac mini для программиста-датасайнтиста - годный инструмент или аналоги лучше(к примеру, colab)?
Я хоть не дата саентист, но я думаю инструмент годный там, где ГПУшка помощнее
источник

AS

Alex Sh in Startup never sleeps
Да, гпушка решает, согласен
источник

AR

Andrey Ragimov in Startup never sleeps
Alex Sh
Да, гпушка решает, согласен
С ноутбучными видеокартами не все так просто.
Мощные GPU много потребляют и выделяют много тепла, как следствие требуют мощные системы охлаждения, много весят и быстро разряжаются.

В итоге ноутбук становится не слишком удобным для перемещения: и тяжелый, и батарея быстро садится, а аккумулятор еще и деградирует со временем, приковывая ноутбук к розетке. При этом десктоп аналогичной конфигурации все равно оказывается мощнее, мобильные видеокарты делают урезанными по сравнению со своими большими собратьями.

В свое время словил все обозначенные выше проблемы на ноутбуке с дискреткой и в итоге для себя пришел к конфигурации легкий походный ноутбук + удаленный коннект к полноразмерным видеокартам.

Если все-таки хочется что-нибудь запускать прямо на ноутбуке, то в качестве компромисса можно поискать ноутбук со слабенькой GPU, чтобы на нем можно было проводить какие-то легкие эксперименты, а что-то большое и долгое отправлять на удаленные машины.
источник

AS

Alex Sh in Startup never sleeps
Спасибо за ответ 💪
источник

IM

Ilya Melnikov in Startup never sleeps
>можно поискать ноутбук со слабенькой GPU
У меня Asus Vivo с 1050Ti, 2 года полет нормальный.
Легкий, можно брать в поездки.
Но при интенсивных вычислениях конечно греется и нужна розетка
источник

В

Вахтер in Startup never sleeps
Добро пожаловать
источник

ID

Ivan Degtiarenko in Startup never sleeps
#whois

* Ex-Amazon SDE
* Сейчас работаю в Берлине на удаленке в калифорнийском стартапе
* веду канал про экспатство и бекенд t.me/better_and_better
источник

A

Anastasiia in Startup never sleeps
Ivan Degtiarenko
#whois

* Ex-Amazon SDE
* Сейчас работаю в Берлине на удаленке в калифорнийском стартапе
* веду канал про экспатство и бекенд t.me/better_and_better
А почему ушел из Амазона? И где именно ты там работал? :)
источник

М

Максим in Startup never sleeps
Ivan Degtiarenko
#whois

* Ex-Amazon SDE
* Сейчас работаю в Берлине на удаленке в калифорнийском стартапе
* веду канал про экспатство и бекенд t.me/better_and_better
Привет! Как раз сижу твой код рефакторю
источник

М

Максим in Startup never sleeps
источник

ID

Ivan Degtiarenko in Startup never sleeps
Anastasiia
А почему ушел из Амазона? И где именно ты там работал? :)
мне очень тоскливо с точки зрения culture и процессов разработки, особенно в Европе
источник