Телеграмм чат группы natural_language_processing страница 964

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2247 membersпожаловаться на группу

2020 December 09

PL

Pavel Lebedev in Natural Language Processing

Добрый день! Подскажите пожалуйста, существуют ли открытые реализации извлечения онтологий (сущностей в философском смысле, и их отношений) для русского языка? Наверное, что-то близкое это taxonomy learning? А автоматического извлечения ключевых слов?

источник

10:47пожаловаться #1

KS

Konstantin Smith in Natural Language Processing

Добрый день! Подскажите пожалуйста, существуют ли открытые реализации извлечения онтологий (сущностей в философском смысле, и их отношений) для русского языка? Наверное, что-то близкое это taxonomy learning? А автоматического извлечения ключевых слов?

Для ключевых слов (точнее, словосочетаний) в Pullenti есть специальный анализатор KeywordAnalyzer, который пытается решать эту задачу.

источник

12:27пожаловаться #2

EK

Egor Klimov in Natural Language Processing

Добрый день! Подскажите, пожалуйста, библиотеку для перевода эмодзи на русский язык.

источник

13:52пожаловаться #3

NS

Natalia Semenova in Natural Language Processing

Egor Klimov

Добрый день! Подскажите, пожалуйста, библиотеку для перевода эмодзи на русский язык.

а зачем обязательно на русский? можно с помощью https://github.com/NeelShah18/emot получить названия и потом переводить чем хочешь

источник

14:21пожаловаться #4

EK

Egor Klimov in Natural Language Processing

Попробую, спасибо!

источник

14:23пожаловаться #5

PL

Pavel Lebedev in Natural Language Processing

Konstantin Smith

Для ключевых слов (точнее, словосочетаний) в Pullenti есть специальный анализатор KeywordAnalyzer, который пытается решать эту задачу.

Спасибо

источник

14:51пожаловаться #6

R

Renat in Natural Language Processing

Добрый день! Подскажите пожалуйста, существуют ли открытые реализации извлечения онтологий (сущностей в философском смысле, и их отношений) для русского языка? Наверное, что-то близкое это taxonomy learning? А автоматического извлечения ключевых слов?

Ontology learning - сложная задача для текста на любом языке. Для таблиц попроще. Посмотрите semantic table interpretation или tabular data to knowledge graph matching. На выходе получите entities, properties и types (classes) из графа знаний. Для Wikidata можете попробовать наш семантический аннотатор: https://github.com/UB-Mannheim/bbw.

источник

21:41пожаловаться #7

2020 December 10

Q

Qwerty in Natural Language Processing

Всем привет. А есть инструменты анализ текстов для непрофи? На русском. Я хочу анализировать тексты песен. (Количество упоминаемых слов в тексте) Так чтобы синонимы как-то группировались и мусор чистился.

источник

12:16пожаловаться #8

AW

Alex Wortega in Natural Language Processing

Всем привет. А есть инструменты анализ текстов для непрофи? На русском. Я хочу анализировать тексты песен. (Количество упоминаемых слов в тексте) Так чтобы синонимы как-то группировались и мусор чистился.

Привет, думаю нет, но несложно накодить.

источник

12:33пожаловаться #9

IM

Ilya Mikhalkevich in Natural Language Processing

Привет, думаю нет, но несложно накодить.

если есть словарь синонимов и определение "мусора"

источник

12:47пожаловаться #10

AW

Alex Wortega in Natural Language Processing

Ilya Mikhalkevich

если есть словарь синонимов и определение "мусора"

Берём большую векторную модель

источник

12:48пожаловаться #11

НК

Николай Карпенко... in Natural Language Processing

Есть ли где-то праведный датасет с синонимами?

источник

12:57пожаловаться #12

MО

Miss Очепятка... in Natural Language Processing

Всем привет. А есть инструменты анализ текстов для непрофи? На русском. Я хочу анализировать тексты песен. (Количество упоминаемых слов в тексте) Так чтобы синонимы как-то группировались и мусор чистился.

К примеру https://advego.com/text/seo/

Семантический анализ текста онлайн, seo анализ текста, подсчет символов

Проверяйте SEO анализ текста онлайн бесплатно : семантика, количество символов, плотность ключевых слов, водность, оптимизация. Проверка текста на тошноту, поиск стоп-слов, семантическое ядро

источник

13:06пожаловаться #13

MО

Miss Очепятка... in Natural Language Processing

Николай Карпенко

Есть ли где-то праведный датасет с синонимами?

Думаю под каждую область знаний надо делать свой словарь синонимов.

источник

13:08пожаловаться #14

М

Марк in Natural Language Processing

Николай Карпенко

Есть ли где-то праведный датасет с синонимами?

Вот такой находил раньше
https://www.kaggle.com/estasney/job-title-synonyms

Job Title Synonyms

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

источник

13:08пожаловаться #15

М

Марк in Natural Language Processing

Николай Карпенко

Есть ли где-то праведный датасет с синонимами?

Тоже интересны подборки по данной теме.
Круто если поделитесь опытом.

источник

13:11пожаловаться #16

DD

David Dale in Natural Language Processing

Николай Карпенко

Есть ли где-то праведный датасет с синонимами?

Есть тезаурусы - это специальные словари с машиночитаемой разметкой на синонимы, антонимы, гиперонимы и другие отношения между группами слов.
wordnet самый известный, его английская версия и некоторые другие есть в nltk.
Для русского языка такого же канонического тезауруса нет, но есть ruwordnet.ru и его питонячий интерфейс.

источник

13:26пожаловаться #17

KS

Konstantin Smith in Natural Language Processing

Всем привет, на новом сайте pullenti.ru выложена новая библиотека SDK Unitext для выделения текстов из файлов разных форматов (pdf, doc, docx, odt, html и др.). Выделяется не только плоский текст, но и структурирующие его такие элементы как таблицы, списки, сноски, примечания, а также извлекаются картинки. Такое универсальное представление названо Unitext. SDK самодостаточно и не требует внешних библиотек или предустановленного ПО. Функционирует на любых платформах, где поддержаны языки C#, Java, Python или Javascript. Библиотека лингвистического анализа осталась и теперь называется Pullenti Lingvo.

источник

15:15пожаловаться #18

AK

Alexander Kukushkin in Natural Language Processing

Konstantin Smith

Всем привет, на новом сайте pullenti.ru выложена новая библиотека SDK Unitext для выделения текстов из файлов разных форматов (pdf, doc, docx, odt, html и др.). Выделяется не только плоский текст, но и структурирующие его такие элементы как таблицы, списки, сноски, примечания, а также извлекаются картинки. Такое универсальное представление названо Unitext. SDK самодостаточно и не требует внешних библиотек или предустановленного ПО. Функционирует на любых платформах, где поддержаны языки C#, Java, Python или Javascript. Библиотека лингвистического анализа осталась и теперь называется Pullenti Lingvo.

Unitext похож на Apache Tika?

источник

15:32пожаловаться #19

НК

Николай Карпенко... in Natural Language Processing

Konstantin Smith

Всем привет, на новом сайте pullenti.ru выложена новая библиотека SDK Unitext для выделения текстов из файлов разных форматов (pdf, doc, docx, odt, html и др.). Выделяется не только плоский текст, но и структурирующие его такие элементы как таблицы, списки, сноски, примечания, а также извлекаются картинки. Такое универсальное представление названо Unitext. SDK самодостаточно и не требует внешних библиотек или предустановленного ПО. Функционирует на любых платформах, где поддержаны языки C#, Java, Python или Javascript. Библиотека лингвистического анализа осталась и теперь называется Pullenti Lingvo.

Если в pdf было много колонок он в одну преобразует?

источник

15:35пожаловаться #20