Size: a a a

Чат к каналу @begtin

2017 June 13

AB

Anton [az09@osm] Belichkov in Чат к каналу @begtin
Очевидно, что в скором времени понадобятся решения, наподобии этого
источник

AB

Anton [az09@osm] Belichkov in Чат к каналу @begtin
Выпуск системы фильтрации спама Rspamd 1.6
http://www.opennet.ru/opennews/art.shtml?num=46685
Представлен релиз системы фильтрации спама Rspamd 1.6, предоставляющей средства для оценки сообщений по различным критериям, включая правила, статистические методы и чёрные списки, на основе которых формируется итоговый вес сообщения, используемый для принятия решения о необходимости блокировки.  Rspamd поддерживает практически все возможности, реализованные в SpamAssassin, и имеет ряд особенностей, позволяющих фильтровать почту в среднем в 10 раз быстрее, чем SpamAssassin, а также обеспечивать лучшее качество фильтрации. Код системы написан на языке Си и распространяется под лицензией BSD. #opennet
источник
2017 June 14

MN

Mikhail Novikov in Чат к каналу @begtin
Open Data Chapter опубликовали гайд по борьбе с коррупцией на основе открытых данных. Внутри примеры проектов, хорошо индексированные датасеты и связи между ними, стандарты и принципы работы с данными. Есть версия онлайн, пдф и гуглдокс
http://opendatacharter.net/anticorruption/

Таблица с датасетами и примерами
https://airtable.com/shrKEUcqzaWfBlDhC/tblOY2aw1hYUuJze9/viwLZ7Y0ngBIWQque?backgroundColor=blue&layout=card
источник

IB

Ivan Begtin in Чат к каналу @begtin
отличная новость,  спасибо!
источник
2017 June 23

uy

unknownperson youknow in Чат к каналу @begtin
всем привет!

подскажите, пожалуйста. как я могу классифицировать слова к категориям:

Автотранспорт
АЗС
Бизнес и проекты
Благотворительность
Бытовая техника
Долги, кредиты, ипотека
Дом, квартира, дача, ремонт

и т.д.?

я так понимаю, что можно использовать что-то вроде wordnet, только для русского языка?
источник

uy

unknownperson youknow in Чат к каналу @begtin
например, "телевизор" к "Бытовая техника"
источник

IB

Ivan Begtin in Чат к каналу @begtin
Добрый день, да, есть аналоги wordnet для русского языка - несколько из них легко гуглятся
источник

uy

unknownperson youknow in Чат к каналу @begtin
Пробовал этот https://nlpub.ru/YARN , но, так понял, что там не связаны слова с категориями. Азарова непонятно где скачать, а этот http://wordnet.ru бинарный, непонятно как по нему программно искать
источник

AB

Anton [az09@osm] Belichkov in Чат к каналу @begtin
unknownperson youknow
Пробовал этот https://nlpub.ru/YARN , но, так понял, что там не связаны слова с категориями. Азарова непонятно где скачать, а этот http://wordnet.ru бинарный, непонятно как по нему программно искать
Почему-то сразу про https://ru.m.wiktionary.org/wiki/ подумал. См. "гиперонимы" в каждой статье
источник

uy

unknownperson youknow in Чат к каналу @begtin
спасибо за идею!

а есть мысли как с wikitionary лучше работать? у меня пользователи будут делать запросы раз 2-6 в день и нужно будет определить к какой категории относится. можно делать запрос к странице в wikitionary и смотреть гиперонимы. а если там нету подходящего, то их гиперонимы, тогда получится много запросов. может есть выкаченные базы где-то? или выкачивать по перебору слов или по сайтмэпу какому?
источник

KB

Konstantin Bekreyev in Чат к каналу @begtin
wikidata ещё может пригодится
источник

NK

ID:112414052 in Чат к каналу @begtin
unknownperson youknow
спасибо за идею!

а есть мысли как с wikitionary лучше работать? у меня пользователи будут делать запросы раз 2-6 в день и нужно будет определить к какой категории относится. можно делать запрос к странице в wikitionary и смотреть гиперонимы. а если там нету подходящего, то их гиперонимы, тогда получится много запросов. может есть выкаченные базы где-то? или выкачивать по перебору слов или по сайтмэпу какому?
источник

uy

unknownperson youknow in Чат к каналу @begtin
спасибо. но я, наверное, отюда возьму. тут, как мне кажется, для большего количества слов есть гиперонимы и последних тоже больше https://nlpub.ru/Russian_Distributional_Thesaurus#.D0.93.D0.B8.D0.BF.D0.B5.D1.80.D0.BE.D0.BD.D0.B8.D0.BC.D1.8B
nlpub.mipt.ru
Russian Distributional Thesaurus — NLPub
Russian Distributional Thesaurus (сокр. RDT) — проект создания открытого дистрибутивного тезауруса русского языка. На данный момент ресурс содержит несколько компонент: вектора слов (word embeddings), граф подобия слов (дистрибутивный тезаурус), множество гиперонимов и инвентарь смыслов слов. Все ресурсы были построены  автоматически на основании корпуса текстов книг на русском языке (12.9 млрд словоупотреблений). В следующих версиях ресурса планируется добавление  и векторов смыслов слов для русского языка, которые были получены на основании того же корпуса текстов. Проект разрабатывается усилиями представителей УрФУ, МГУ им. Ломоносова, Университета Гамбурга. В прошлом в проект внесли свой вклад исследователи из Южно-Уральского государственного университета, Дармштадского технического университета, Волверхемтонского университета и Университета Тренто.
источник
2017 June 24

KY

Konstantin Yarygin in Чат к каналу @begtin
Всем привет! Подскажите, есть ли возможность выкачать тексты русских сми?
источник

VP

Vladimir Petrov in Чат к каналу @begtin
Не вполне понимаю вопрос. Технически или с правовой точки зрения?
источник

VP

Vladimir Petrov in Чат к каналу @begtin
Технически — да, Гугл так и работает, например.
источник

KY

Konstantin Yarygin in Чат к каналу @begtin
Технически. Гугл не предоставляет доступ к корпусам текстов, которые он спарсил с сайтов. Как можно это сделать самому?
источник

AB

Anton [az09@osm] Belichkov in Чат к каналу @begtin
Konstantin Yarygin
Технически. Гугл не предоставляет доступ к корпусам текстов, которые он спарсил с сайтов. Как можно это сделать самому?
ну правильно, что не предоставляют. это их хлеб
источник

AB

Anton [az09@osm] Belichkov in Чат к каналу @begtin
технически - наверно взять движок браузера и "открывать" програмно сайты в режиме чтения
источник

VP

Vladimir Petrov in Чат к каналу @begtin
https://m.habrahabr.ru/post/271425/

Навскидку. А вообще в Гугл лучше такой вопрос забить.
источник