Size: a a a

Чат к каналу @begtin

2019 September 09

IB

Ivan Begtin in Чат к каналу @begtin
Григорий Машанов
вот как интересно в США сайты федеральных ведомств живут по 10 лет на одних и тех же шаблонах, а у нас каждое министерство каждые два года сайт переделывает
В США расходы на сайты считаются тщательно, а у нас всё ещё нет. Плюс привычка не быть, а казаться - сайты сделаны стильно, но нефункционально
источник

VS

Victor Stepankov in Чат к каналу @begtin
Григорий Машанов
вот как интересно в США сайты федеральных ведомств живут по 10 лет на одних и тех же шаблонах, а у нас каждое министерство каждые два года сайт переделывает
насчёт расходов.
До прихода трампа сайт Whitehouse.gov был на Drupal, мультиязычным и вообще прекрасным кейсом использования системы и её возможностей.

После прихода Трампа, сайт перевели на Wordpress, 90% функционала вырезали и рапортовали, что этим удалось экономить толь 20к баксов в год, толь 200к
источник

IB

Ivan Begtin in Чат к каналу @begtin
Да и при этом они снесли кучу разделов и данных. По российским меркам смешная ситуация, многие ведомства реально много тратят на свои сайты
источник

VS

Victor Stepankov in Чат к каналу @begtin
Ivan Begtin
Да и при этом они снесли кучу разделов и данных. По российским меркам смешная ситуация, многие ведомства реально много тратят на свои сайты
я думаю, что причина банальна, никто из этих внутренних заказчиков не знает зачем им сайт, кроме выполнения требований бюрократического карго-культа
источник
2019 September 10

G

Gip24 in Чат к каналу @begtin
Григорий Машанов
вот как интересно в США сайты федеральных ведомств живут по 10 лет на одних и тех же шаблонах, а у нас каждое министерство каждые два года сайт переделывает
Будут и ещё переделывать. Под один госстандарт
источник

NK

ID:0 in Чат к каналу @begtin
Архивация общедоступных ресурсов очень близко пересекается с OSINT, извлечением значимой информации из общедоступных источников. Во всяком случае инструментарий пересекается очень сильно. Например, для соцсетей инструменты сбора данных для OSINT это чуть ли не единственный способ архивировать активность отдельных пользователей.

Для некоторых соцсетей вроде Facebook'а до сих пор нет инструмента архивации, Facebook крайне жёстко блокирует любые попытки выгрузки контента. Для других соцсетей такие инструменты бывают или возможны. Например один из лучших инструментов для Twitter'а - это twint [1], позволяет выгружать все твиты аккаунта без ограничений.

Нам это позволит в рамках Национальный цифровой архив России [2] сделать, наконец-то, обновляемый архив твитов политиков/чиновников/значимых лиц.

Очень нехватает такой утилиты для Telegram'а для архивации каналов. От неё нужно уметь принимать имя пользователя, формат сохранения (json, csv, sqlite), тип сохранения - выгрузить с нуля или обновить.

В итоге очень похоже на twint, но для телеграма. Есть ли уже готовые инструменты? Есть ли коммунити разработчиков умеющих выкачивать данные из телеграма и где можно заказать такой инструмент?

Ссылки:
[1] https://github.com/twintproject/twint
[2] http://ruarxive.org

#digitalpreservation
источник

VS

Victor Stepankov in Чат к каналу @begtin
товарищ пилил индексатор телеги - чаты, каналы, вот это всё.
Что-то типа @buzzim_alerts_bot, но не попёрло у него с точки зрения бизнеса.

Написал ему, может в паблик выложит
источник

PK

Pavel Kosenkov in Чат к каналу @begtin
Victor Stepankov
товарищ пилил индексатор телеги - чаты, каналы, вот это всё.
Что-то типа @buzzim_alerts_bot, но не попёрло у него с точки зрения бизнеса.

Написал ему, может в паблик выложит
источник

VS

Victor Stepankov in Чат к каналу @begtin
прочитает и так, рано или поздно
источник

RN

Renat Nasridinov in Чат к каналу @begtin
еще вот этим было неплохо чаты архивировать, но не я изучал, работает ли оно с каналами.
источник

IB

Ivan Begtin in Чат к каналу @begtin
Renat Nasridinov
еще вот этим было неплохо чаты архивировать, но не я изучал, работает ли оно с каналами.
Да, это хороший инструмент для личных резервных копий. Если получится его доработать до сохранения произвольного телеграм канала, то он будет то что нужно
источник

m

moi cyberkotik in Чат к каналу @begtin
Как то уже пытался такое написать без использования api телеги, выгружало долго и не в обработанном формате. Инфу разбить и мультитред/асио прикрутить, и будет самое то. Единственное - не продумал как всю разношерстную информацию хранить.
источник

IB

Ivan Begtin in Чат к каналу @begtin
Хранить самое простое в NoSQL
источник

m

moi cyberkotik in Чат к каналу @begtin
Это текстовые значения, а медиа?
Нужно ли как то привязывать индекс файла к позиции сообщений или отдельно выгружать и оставлять?
источник

PK

Pavel Kosenkov in Чат к каналу @begtin
А чем плох формат который сама телега выгружает по запросу?
источник

IB

Ivan Begtin in Чат к каналу @begtin
Медиа можно хранить в Mongo GridFS к примеру
источник

m

moi cyberkotik in Чат к каналу @begtin
Pavel Kosenkov
А чем плох формат который сама телега выгружает по запросу?
Если про клиент то это нужно делать на основе апи юзера.
Если про ту реализацию что пытался я сделать то там по сути хтмлки обычные.
источник

m

moi cyberkotik in Чат к каналу @begtin
Но чтобы не переизобретать велосипед конечно лучше делать на основе user-api.
источник

PK

Pavel Kosenkov in Чат к каналу @begtin
moi cyberkotik
Если про клиент то это нужно делать на основе апи юзера.
Если про ту реализацию что пытался я сделать то там по сути хтмлки обычные.
Емип там ещё xml можно
источник

VS

Victor Stepankov in Чат к каналу @begtin
да, раньше был XML, но сейчас уже в HTML выгружает, как я понимаю.
Десктопный клиент под линукс уж точно
источник