Size: a a a

Natural Language Processing

2020 August 28

YB

Yuri Baburov in Natural Language Processing
viktor
а для всего мира не знаешь годный свежий датасет?
погугли, есть world-cities всякие.
источник

YB

Yuri Baburov in Natural Language Processing
но вообще, для мира есть geonames.org , там можно CSV для каждой страны взять.
там кроме основного имени есть альтернативные имена.
источник

v

viktor in Natural Language Processing
:tnx:
источник

YB

Yuri Baburov in Natural Language Processing
т.е. те же русские имена там есть для каких-то иностранных городов, и наоборот.
источник

YB

Yuri Baburov in Natural Language Processing
источник

YB

Yuri Baburov in Natural Language Processing
1512086  Akademgorodok  Akademgorodok  Akademgorodok,Akademicheskiy Gorodok,Gorod Nauki,Novosibirskij Akademgorodok,Novosibirskiy Nauchnyy Tsentr,Science City,akademgolodokeu,akademugorodoku,akadymjwrwdwk,Академгородок,Новосибирский Академгородок,أكاديمجورودوك,アカデムゴロドク,아카뎀고로도크  54.8523  83.106  P  PPLX  RU
источник

v

viktor in Natural Language Processing
видимо не на все страны
источник

v

viktor in Natural Language Processing
в общем и целом, мне нужен датасет, где на русском написан город + страна
желательно готовый :kekeke:
источник

BZ

Below Zero in Natural Language Processing
Всем привет. Какие есть техники по использованию OOV-токенов при наличии предобученных эмбеддингов, например fasttext? быстрый поиск советует только subword и char-level эмбеддинги
источник

DD

David Dale in Natural Language Processing
Below Zero
Всем привет. Какие есть техники по использованию OOV-токенов при наличии предобученных эмбеддингов, например fasttext? быстрый поиск советует только subword и char-level эмбеддинги
С fasttext'ом ничего специально делать не надо, он сам для любых слов по символьным N-граммам эмбеддинги строит.
источник

BZ

Below Zero in Natural Language Processing
David Dale
С fasttext'ом ничего специально делать не надо, он сам для любых слов по символьным N-граммам эмбеддинги строит.
а как мне вставить такой токен в embedding слой, если для него нет индекса?
источник

DD

David Dale in Natural Language Processing
Below Zero
а как мне вставить такой токен в embedding слой, если для него нет индекса?
Вставлять его не надо, в фасттексте все слова разбиваются на n-граммы, от них считаются хэши, по хэшам лукапятся эмбеддинги, для любого возможного хэша есть эмбеддинг, хотя не все из них хорошо обучены, и иногда случаются коллизии.
Вот в этом посте я псевдокод для fasttext-эмбеддинга показываю: https://habr.com/ru/post/489474/
источник

BZ

Below Zero in Natural Language Processing
David Dale
Вставлять его не надо, в фасттексте все слова разбиваются на n-граммы, от них считаются хэши, по хэшам лукапятся эмбеддинги, для любого возможного хэша есть эмбеддинг, хотя не все из них хорошо обучены, и иногда случаются коллизии.
Вот в этом посте я псевдокод для fasttext-эмбеддинга показываю: https://habr.com/ru/post/489474/
если его не вставить, как модель его учтет? я же на вход ей подаю векторизованый текст, где каждому токену соответсвует индекс словаря
источник

DD

David Dale in Natural Language Processing
Below Zero
если его не вставить, как модель его учтет? я же на вход ей подаю векторизованый текст, где каждому токену соответсвует индекс словаря
В такой схеме - никак.
источник

v

viktor in Natural Language Processing
viktor
в общем и целом, мне нужен датасет, где на русском написан город + страна
желательно готовый :kekeke:
нашел пока вот такое – https://github.com/x88/i18nGeoNamesDB
вроде то что нужно
источник

YB

Yuri Baburov in Natural Language Processing
ещё можно обрабатывать википедию/викидату.
и есть всякие  https://ru.stackoverflow.com/questions/853680/Где-получить-список-городов-мира
источник
2020 August 29

AK

Anton Kolonin in Natural Language Processing
Тут случилось обсуждение о необходимости модификации имеющегося у @AigentsBot извлекателя текстовой информации из веб-страниц. К 5-му пункту повестки пришло понимание, что в итоге нужен если не AGI, то хотя бы HLAI 😊 Буду приветствовать как комментарии (если в гитахабе, то - на английском) так и предложения по имеющимся решениям на Java, ну и хелп вонтед. https://github.com/aigents/aigents-java/issues/36
источник

YB

Yuri Baburov in Natural Language Processing
Anton Kolonin
Тут случилось обсуждение о необходимости модификации имеющегося у @AigentsBot извлекателя текстовой информации из веб-страниц. К 5-му пункту повестки пришло понимание, что в итоге нужен если не AGI, то хотя бы HLAI 😊 Буду приветствовать как комментарии (если в гитахабе, то - на английском) так и предложения по имеющимся решениям на Java, ну и хелп вонтед. https://github.com/aigents/aigents-java/issues/36
Python-readability, trafilatura, на java был кажется boilerpipe. Работают не идеально, но получше наивной обработки HTML: вырезают рекламные, картиночные и ссылочные блоки, зачастую успешно отделяют блоки с комментариями от блоков со статьёй.
источник

YB

Yuri Baburov in Natural Language Processing
Yuri Baburov
Python-readability, trafilatura, на java был кажется boilerpipe. Работают не идеально, но получше наивной обработки HTML: вырезают рекламные, картиночные и ссылочные блоки, зачастую успешно отделяют блоки с комментариями от блоков со статьёй.
Но на других типах страниц -- списка товаров, описания товара, даже Википедии -- могут плохо справляться. Там уже область коммерческих продуктов. Ибо кроме коммерции редко кому нужно.
источник

RS

Ruslan Sabirov in Natural Language Processing
Может кого заинтересует

Innopolis NLP MeetUp https://t.me/it_tatarstan/1270
источник