Size: a a a

Natural Language Processing

2020 December 09

PL

Pavel Lebedev in Natural Language Processing
Добрый день! Подскажите пожалуйста, существуют ли открытые реализации извлечения онтологий (сущностей в философском смысле, и их отношений) для русского языка? Наверное, что-то близкое это taxonomy learning? А автоматического извлечения ключевых слов?
источник

KS

Konstantin Smith in Natural Language Processing
Pavel Lebedev
Добрый день! Подскажите пожалуйста, существуют ли открытые реализации извлечения онтологий (сущностей в философском смысле, и их отношений) для русского языка? Наверное, что-то близкое это taxonomy learning? А автоматического извлечения ключевых слов?
Для ключевых слов (точнее, словосочетаний) в Pullenti есть специальный анализатор KeywordAnalyzer, который пытается решать эту задачу.
источник

EK

Egor Klimov in Natural Language Processing
Добрый день! Подскажите, пожалуйста, библиотеку для перевода эмодзи на русский язык.
источник

NS

Natalia Semenova in Natural Language Processing
Egor Klimov
Добрый день! Подскажите, пожалуйста, библиотеку для перевода эмодзи на русский язык.
а зачем обязательно на русский? можно с помощью https://github.com/NeelShah18/emot  получить названия и потом переводить чем хочешь
источник

EK

Egor Klimov in Natural Language Processing
Попробую, спасибо!
источник

PL

Pavel Lebedev in Natural Language Processing
Konstantin Smith
Для ключевых слов (точнее, словосочетаний) в Pullenti есть специальный анализатор KeywordAnalyzer, который пытается решать эту задачу.
Спасибо
источник

R

Renat in Natural Language Processing
Pavel Lebedev
Добрый день! Подскажите пожалуйста, существуют ли открытые реализации извлечения онтологий (сущностей в философском смысле, и их отношений) для русского языка? Наверное, что-то близкое это taxonomy learning? А автоматического извлечения ключевых слов?
Ontology learning - сложная задача для текста на любом языке. Для таблиц попроще. Посмотрите semantic table interpretation или tabular data to knowledge graph matching. На выходе получите entities, properties и types (classes) из графа знаний. Для Wikidata можете попробовать наш семантический аннотатор: https://github.com/UB-Mannheim/bbw.
источник
2020 December 10

Q

Qwerty in Natural Language Processing
Всем привет. А есть инструменты анализ текстов для непрофи? На русском. Я хочу анализировать тексты песен. (Количество упоминаемых слов в тексте) Так чтобы синонимы как-то группировались и мусор чистился.
источник

AW

Alex Wortega in Natural Language Processing
Qwerty
Всем привет. А есть инструменты анализ текстов для непрофи? На русском. Я хочу анализировать тексты песен. (Количество упоминаемых слов в тексте) Так чтобы синонимы как-то группировались и мусор чистился.
Привет, думаю нет, но несложно накодить.
источник

IM

Ilya Mikhalkevich in Natural Language Processing
Alex Wortega
Привет, думаю нет, но несложно накодить.
если есть словарь синонимов и определение "мусора"
источник

AW

Alex Wortega in Natural Language Processing
Ilya Mikhalkevich
если есть словарь синонимов и определение "мусора"
Берём большую векторную модель
источник

НК

Николай Карпенко... in Natural Language Processing
Есть ли где-то праведный датасет с синонимами?
источник

Miss Очепятка... in Natural Language Processing
Qwerty
Всем привет. А есть инструменты анализ текстов для непрофи? На русском. Я хочу анализировать тексты песен. (Количество упоминаемых слов в тексте) Так чтобы синонимы как-то группировались и мусор чистился.
источник

Miss Очепятка... in Natural Language Processing
Николай Карпенко
Есть ли где-то праведный датасет с синонимами?
Думаю под каждую область знаний надо делать свой словарь синонимов.
источник

М

Марк in Natural Language Processing
Николай Карпенко
Есть ли где-то праведный датасет с синонимами?
Вот такой находил раньше
https://www.kaggle.com/estasney/job-title-synonyms
источник

М

Марк in Natural Language Processing
Николай Карпенко
Есть ли где-то праведный датасет с синонимами?
Тоже интересны подборки по данной теме.
Круто если поделитесь опытом.
источник

DD

David Dale in Natural Language Processing
Николай Карпенко
Есть ли где-то праведный датасет с синонимами?
Есть тезаурусы - это специальные словари с машиночитаемой разметкой на синонимы, антонимы, гиперонимы и другие отношения между группами слов.
wordnet самый известный, его английская версия и некоторые другие есть в nltk.
Для русского языка такого же канонического тезауруса нет, но есть ruwordnet.ru и его питонячий интерфейс.
источник

KS

Konstantin Smith in Natural Language Processing
Всем привет, на новом сайте pullenti.ru выложена новая библиотека SDK Unitext для выделения текстов из файлов разных форматов (pdf, doc, docx, odt, html и др.). Выделяется не только плоский текст, но и структурирующие его такие элементы как таблицы, списки, сноски, примечания, а также извлекаются картинки. Такое универсальное представление названо Unitext. SDK самодостаточно и не требует внешних библиотек или предустановленного ПО. Функционирует на любых платформах, где поддержаны языки C#, Java, Python или Javascript. Библиотека лингвистического анализа осталась и теперь называется Pullenti Lingvo.
источник

AK

Alexander Kukushkin in Natural Language Processing
Konstantin Smith
Всем привет, на новом сайте pullenti.ru выложена новая библиотека SDK Unitext для выделения текстов из файлов разных форматов (pdf, doc, docx, odt, html и др.). Выделяется не только плоский текст, но и структурирующие его такие элементы как таблицы, списки, сноски, примечания, а также извлекаются картинки. Такое универсальное представление названо Unitext. SDK самодостаточно и не требует внешних библиотек или предустановленного ПО. Функционирует на любых платформах, где поддержаны языки C#, Java, Python или Javascript. Библиотека лингвистического анализа осталась и теперь называется Pullenti Lingvo.
Unitext похож на Apache Tika?
источник

НК

Николай Карпенко... in Natural Language Processing
Konstantin Smith
Всем привет, на новом сайте pullenti.ru выложена новая библиотека SDK Unitext для выделения текстов из файлов разных форматов (pdf, doc, docx, odt, html и др.). Выделяется не только плоский текст, но и структурирующие его такие элементы как таблицы, списки, сноски, примечания, а также извлекаются картинки. Такое универсальное представление названо Unitext. SDK самодостаточно и не требует внешних библиотек или предустановленного ПО. Функционирует на любых платформах, где поддержаны языки C#, Java, Python или Javascript. Библиотека лингвистического анализа осталась и теперь называется Pullenti Lingvo.
Если в pdf было много колонок он в одну преобразует?
источник