Size: a a a

2020 November 13

AS

Alexey Shcherbak in ctodailychat
Если так поразмышлять над темой - идея прикольная, такой pagerank программистов на основании опен-сорс проектов в которых они наконтрибьтили когда-то... Возможно стоит спросить у тех же ребят из гугла - что они использовали для строительства своего pagerank. Ибо данных у вас ожидается много, на ГХ 100М репок было еще в 2018.
источник

SB

Sam Becket in ctodailychat
Alexey Shcherbak
Если хотите ускорить поиск - можно сделать блум фильтр и пофильтровать, отсеяв большинство запросов, которые вернут пустой результат (вообще не искать с сразу сказать - вы хотите  "10x unicorn, вы никого не найдете с такими параметрами") а дальше уже построить какую либо систему для каскадного сужения поиска (если это ключевая проблема).
не, с этим все в порядке (кажется), пока  проблем с пустыми результатами нет, т.к. если гитхаб ничего по запросу не нашел, то и мы ничего не получили
источник

AS

Alexey Shcherbak in ctodailychat
Красиво, возможно потом продаться гитхабу\МС
источник

SB

Sam Becket in ctodailychat
Alexey Shcherbak
Если так поразмышлять над темой - идея прикольная, такой pagerank программистов на основании опен-сорс проектов в которых они наконтрибьтили когда-то... Возможно стоит спросить у тех же ребят из гугла - что они использовали для строительства своего pagerank. Ибо данных у вас ожидается много, на ГХ 100М репок было еще в 2018.
хз, я спрашивал, посоветовали sourcegraph это то, что нужно ¯\_(ツ)_/¯
источник

SB

Sam Becket in ctodailychat
Alexey Shcherbak
Красиво, возможно потом продаться гитхабу\МС
Я так и хочу! :)
источник

AS

Alexey Shcherbak in ctodailychat
Sam Becket
не, с этим все в порядке (кажется), пока  проблем с пустыми результатами нет, т.к. если гитхаб ничего по запросу не нашел, то и мы ничего не получили
но вызов к API использовали...
источник

SB

Sam Becket in ctodailychat
На это первоначально целились
источник

AS

Alexey Shcherbak in ctodailychat
Sam Becket
хз, я спрашивал, посоветовали sourcegraph это то, что нужно ¯\_(ツ)_/¯
возможно или я не понимаю как тут сг поможет или люди его советовавшие - не совсем поняли масштабы...
источник

AS

Alexey Shcherbak in ctodailychat
А какой был совет в плане применения СГ  - по тому как я вижу что делает СГ и где гитхаб - это только "выкачайте себе гитхаб и ищите по нему" ?
источник

SB

Sam Becket in ctodailychat
Alexey Shcherbak
возможно или я не понимаю как тут сг поможет или люди его советовавшие - не совсем поняли масштабы...
возможно и так 😅

если честно не знаю, что делать, кроме как поднять инвестиций и сделать собственный dependency graph, или договориться с гитхабом на  пилот
источник

SB

Sam Becket in ctodailychat
Alexey Shcherbak
но вызов к API использовали...
да, допустим поиск по 3м библиотекам, значит 3 вызова, но ключевая проблема не в этом!! :D


Проблема в том, что результаты пагинированы, их может быть до 100 на странице, и гитхаб не отдает свыше кажется первых трех страниц поиска

соответственно по 2м зависимостям можно максимум найти 100*n*2
где n - количество максимальных страниц с результатами, которые мы можем получить
источник

AS

Alexey Shcherbak in ctodailychat
Sam Becket
На это первоначально целились
это основная идея, для того чтобы это продавать как сервис - очень узкая ниша, т.к. поиск по опенсорсу - сильно ограничен (это как если бы на работу нанимали только тех у кого есть вебсайт и его можно найти гуглом). Это такой компонент для ГХ для привлечения внимания к себе, не только как "эй, мы гигантское хранилище кода "разного качества" ", но с такой фичей ГХ может сказать а смотрите, как мы умеем еще и в рекрутмент\поиск талантов.
Но тут есть пара моментов
- у МС уже есть LinkedIn, и там это вполне денежно, если они еще сами соединят ЛИ с ГХ - это будет сильный заход.
- у ГХ много сильных ребят, а идея в целом на поверхности (кмк) - они или сами ее уже пилят (А если нет - можно хорошо наняться в ГХ) или попробовали но поняли что коммерчески - не выгодно или данные низкого качества.
источник

AS

Alexey Shcherbak in ctodailychat
Sam Becket
да, допустим поиск по 3м библиотекам, значит 3 вызова, но ключевая проблема не в этом!! :D


Проблема в том, что результаты пагинированы, их может быть до 100 на странице, и гитхаб не отдает свыше кажется первых трех страниц поиска

соответственно по 2м зависимостям можно максимум найти 100*n*2
где n - количество максимальных страниц с результатами, которые мы можем получить
ну такую проблему СГ решить может, но для этого вам надо выкачать все репки перед тем как по ним искать, а у ГХ они уже есть. тут имхо не в пагинации дело а в том - где взять данные  чтобы по ним чем-то искать, но вам виднее.
источник

SB

Sam Becket in ctodailychat
Alexey Shcherbak
это основная идея, для того чтобы это продавать как сервис - очень узкая ниша, т.к. поиск по опенсорсу - сильно ограничен (это как если бы на работу нанимали только тех у кого есть вебсайт и его можно найти гуглом). Это такой компонент для ГХ для привлечения внимания к себе, не только как "эй, мы гигантское хранилище кода "разного качества" ", но с такой фичей ГХ может сказать а смотрите, как мы умеем еще и в рекрутмент\поиск талантов.
Но тут есть пара моментов
- у МС уже есть LinkedIn, и там это вполне денежно, если они еще сами соединят ЛИ с ГХ - это будет сильный заход.
- у ГХ много сильных ребят, а идея в целом на поверхности (кмк) - они или сами ее уже пилят (А если нет - можно хорошо наняться в ГХ) или попробовали но поняли что коммерчески - не выгодно или данные низкого качества.
А мы не только по opensource ищем
источник

SB

Sam Becket in ctodailychat
Мы можем и по закрытым искать
источник

SB

Sam Becket in ctodailychat
Во первых та лютая убер-вафля (Github dependency graph) парсит в том числе и по закрытым исходникам

Во-вторых, мы честно предлагаем, каждому авторизовавшемуся программисту дать доступ к своим dependencies файлам, для того, что бы мы могли наиболее релевантно определить их опыт (без доступа к самом коду разумеется)
источник

AS

Alexey Shcherbak in ctodailychat
По закрытым - где и как ? ну т.е. простой момент - я работал в компании Х с технологией Y, там все было в своем тенанте гитхаба - вы эту инфу не вытащите если компания X не поделится с вами историей гита. А она не поделится. И гитхаб не даст поиск в закрытые корп репки...
источник

AS

Alexey Shcherbak in ctodailychat
Sam Becket
Во первых та лютая убер-вафля (Github dependency graph) парсит в том числе и по закрытым исходникам

Во-вторых, мы честно предлагаем, каждому авторизовавшемуся программисту дать доступ к своим dependencies файлам, для того, что бы мы могли наиболее релевантно определить их опыт (без доступа к самом коду разумеется)
ой, за такое можно по шапке получить от конторы, ибо ты даешь доступ к IP компании которым ты не владеешь.
источник

AS

Alexey Shcherbak in ctodailychat
я имею ввиду за "второе"
источник

SB

Sam Becket in ctodailychat
Alexey Shcherbak
это основная идея, для того чтобы это продавать как сервис - очень узкая ниша, т.к. поиск по опенсорсу - сильно ограничен (это как если бы на работу нанимали только тех у кого есть вебсайт и его можно найти гуглом). Это такой компонент для ГХ для привлечения внимания к себе, не только как "эй, мы гигантское хранилище кода "разного качества" ", но с такой фичей ГХ может сказать а смотрите, как мы умеем еще и в рекрутмент\поиск талантов.
Но тут есть пара моментов
- у МС уже есть LinkedIn, и там это вполне денежно, если они еще сами соединят ЛИ с ГХ - это будет сильный заход.
- у ГХ много сильных ребят, а идея в целом на поверхности (кмк) - они или сами ее уже пилят (А если нет - можно хорошо наняться в ГХ) или попробовали но поняли что коммерчески - не выгодно или данные низкого качества.
Они пробовали делать git jobs лет 5-10 назад, но не взлетело

не взлетело как раз таки по причине не релевантных офферов

что бы эффективно матчить компанию с программистом, который интересуется/работает в том же техническом стеке, что и ты — нужна технология dependency graph или её аналог

поэтому я собственно и хочу на этой теме зайти в гх и продаться им :)
источник