Телеграмм чат группы natural_language

1512086 Akademgorodok Akademgorodok Akademgorodok,Akademicheskiy Gorodok,Gorod Nauki,Novosibirskij Akademgorodok,Novosibirskiy Nauchnyy Tsentr,Science City,akademgolodokeu,akademugorodoku,akadymjwrwdwk,Академгородок,Новосибирский Академгородок,أكاديمجورودوك,アカデムゴロドク,아카뎀고로도크 54.8523 83.106 P PPLX RU

источник

17:24пожаловаться #6

v

viktor in Natural Language Processing

видимо не на все страны

источник

17:24пожаловаться #7

v

viktor in Natural Language Processing

в общем и целом, мне нужен датасет, где на русском написан город + страна
желательно готовый :kekeke:

источник

17:26пожаловаться #8

BZ

Below Zero in Natural Language Processing

Всем привет. Какие есть техники по использованию OOV-токенов при наличии предобученных эмбеддингов, например fasttext? быстрый поиск советует только subword и char-level эмбеддинги

источник

17:30пожаловаться #9

DD

David Dale in Natural Language Processing

Below Zero

Всем привет. Какие есть техники по использованию OOV-токенов при наличии предобученных эмбеддингов, например fasttext? быстрый поиск советует только subword и char-level эмбеддинги

С fasttext'ом ничего специально делать не надо, он сам для любых слов по символьным N-граммам эмбеддинги строит.

источник

17:32пожаловаться #10

BZ

Below Zero in Natural Language Processing

David Dale

С fasttext'ом ничего специально делать не надо, он сам для любых слов по символьным N-граммам эмбеддинги строит.

а как мне вставить такой токен в embedding слой, если для него нет индекса?

источник

17:33пожаловаться #11

DD

David Dale in Natural Language Processing

Below Zero

а как мне вставить такой токен в embedding слой, если для него нет индекса?

Вставлять его не надо, в фасттексте все слова разбиваются на n-граммы, от них считаются хэши, по хэшам лукапятся эмбеддинги, для любого возможного хэша есть эмбеддинг, хотя не все из них хорошо обучены, и иногда случаются коллизии.
Вот в этом посте я псевдокод для fasttext-эмбеддинга показываю: https://habr.com/ru/post/489474/

источник

17:35пожаловаться #12

BZ

Below Zero in Natural Language Processing

David Dale

Вставлять его не надо, в фасттексте все слова разбиваются на n-граммы, от них считаются хэши, по хэшам лукапятся эмбеддинги, для любого возможного хэша есть эмбеддинг, хотя не все из них хорошо обучены, и иногда случаются коллизии.
Вот в этом посте я псевдокод для fasttext-эмбеддинга показываю: https://habr.com/ru/post/489474/

если его не вставить, как модель его учтет? я же на вход ей подаю векторизованый текст, где каждому токену соответсвует индекс словаря

источник

17:37пожаловаться #13

DD

David Dale in Natural Language Processing

Below Zero

если его не вставить, как модель его учтет? я же на вход ей подаю векторизованый текст, где каждому токену соответсвует индекс словаря

В такой схеме - никак.

источник

17:38пожаловаться #14

v

viktor in Natural Language Processing

viktor

в общем и целом, мне нужен датасет, где на русском написан город + страна
желательно готовый :kekeke:

нашел пока вот такое – https://github.com/x88/i18nGeoNamesDB
вроде то что нужно

GitHub

x88/i18nGeoNamesDB

The largest geonames database of counties, regions and cities with translations. - x88/i18nGeoNamesDB

источник

17:38пожаловаться #15

YB

Yuri Baburov in Natural Language Processing

viktor

нашел пока вот такое – https://github.com/x88/i18nGeoNamesDB
вроде то что нужно

GitHub

x88/i18nGeoNamesDB

The largest geonames database of counties, regions and cities with translations. - x88/i18nGeoNamesDB

ещё можно обрабатывать википедию/викидату.
и есть всякие https://ru.stackoverflow.com/questions/853680/Где-получить-список-городов-мира

Stack Overflow на русском

Где получить список городов мира?

Нужно единоразово скачать список городов мира (или хотя бы только России) в json формате. Кто-нибудь знает бесплатный ресурс?

источник

17:55пожаловаться #16

2020 August 29

AK

Anton Kolonin in Natural Language Processing

Тут случилось обсуждение о необходимости модификации имеющегося у @AigentsBot извлекателя текстовой информации из веб-страниц. К 5-му пункту повестки пришло понимание, что в итоге нужен если не AGI, то хотя бы HLAI 😊 Буду приветствовать как комментарии (если в гитахабе, то - на английском) так и предложения по имеющимся решениям на Java, ну и хелп вонтед. https://github.com/aigents/aigents-java/issues/36

GitHub

Smart Web Page Analysis · Issue #36 · aigents/aigents-java

Goal There is a need to refactor/extend existing HTML stripper to have textual and semantic information extraction more reliable than it is currently happening in legacy HtmlStripper https://github...

источник

06:56пожаловаться #17

YB

Yuri Baburov in Natural Language Processing

Anton Kolonin

Тут случилось обсуждение о необходимости модификации имеющегося у @AigentsBot извлекателя текстовой информации из веб-страниц. К 5-му пункту повестки пришло понимание, что в итоге нужен если не AGI, то хотя бы HLAI 😊 Буду приветствовать как комментарии (если в гитахабе, то - на английском) так и предложения по имеющимся решениям на Java, ну и хелп вонтед. https://github.com/aigents/aigents-java/issues/36

GitHub

Smart Web Page Analysis · Issue #36 · aigents/aigents-java

Goal There is a need to refactor/extend existing HTML stripper to have textual and semantic information extraction more reliable than it is currently happening in legacy HtmlStripper https://github...

Python-readability, trafilatura, на java был кажется boilerpipe. Работают не идеально, но получше наивной обработки HTML: вырезают рекламные, картиночные и ссылочные блоки, зачастую успешно отделяют блоки с комментариями от блоков со статьёй.

источник

09:30пожаловаться #18

YB

Yuri Baburov in Natural Language Processing

Yuri Baburov

Python-readability, trafilatura, на java был кажется boilerpipe. Работают не идеально, но получше наивной обработки HTML: вырезают рекламные, картиночные и ссылочные блоки, зачастую успешно отделяют блоки с комментариями от блоков со статьёй.

Но на других типах страниц -- списка товаров, описания товара, даже Википедии -- могут плохо справляться. Там уже область коммерческих продуктов. Ибо кроме коммерции редко кому нужно.

источник

09:33пожаловаться #19

RS

Ruslan Sabirov in Natural Language Processing

Может кого заинтересует

Innopolis NLP MeetUp https://t.me/it_tatarstan/1270

IT-мероприятия Татарстана

🔔 Innopolis NLP MeetUp 🔔
📙 #митап
📕 Дата: 3 сентября
📗 Место: Онлайн

Приглашаем вас на онлайн-митап! Продолжаем тему AI.

В этот раз будем общаться про технологии обработки естественного языка (NLP), оптимальные ML-решения, узнаем для чего нужна еще одна библиотека машинного обучения NeoML, а также рассмотрим архитектуру бота от DeepPavlov.ai

Наши спикеры:
- Станислав Ангелюк, Team Lead Common Libraries в ABBYY
- Константин Фролов, Machine Learning Engineer в Контур
- Федор Игнатов, Senior Software Engineer в Deeppavlov.ai

Комментарии от экспертов:
- Михаил Бурцев, руководитель проекта в Deeppavlov.ai
- Александр Мазалов, основатель MutuAlies и mITy.law.
- Влад Виноградов, со-основатель и руководитель направления CV в EORA Data Lab

📘 Ссылка: https://bit.ly/34ABSwI

источник

10:09пожаловаться #20