Size: a a a

Natural Language Processing

2020 October 21

V

Vlad in Natural Language Processing
Vlad
https://github.com/Desklop/russtress

Тут предварительная модифицированная версия, советую сразу ее смотреть)

Вот тут описал, что изменено/доработано: https://github.com/Desklop/russtress/blob/master/russtress/text_accentAPI.py#L101

Чуть позже обновлю полноценно, с рефакторингом кода)
Немного самопиара, если тема расстановки ударений в русском тексте ещё актуальна)

Доработал свою модификацию RusStress, как писал ранее: https://github.com/Desklop/StressRNN

В будущем хочу ещё добавить словарь с odict.ru в качестве словаря исключений для нейронки из RusStress, что бы поднять немного точность работы пакета
источник

AO

Alex Orgish in Natural Language Processing
Lyubov К.
Мне бы их прочесть сначала)
Если это .docx формат, то это просто zip-  архив с xml-ками. Просто можно распаковывать оттуда нужный xml, у него будет стандартное имя файла в архиве (аналогично xlsx, pptx и тд).
Если это старый doc-формат, то тут сложнее.
источник

AW

Alex Wortega in Natural Language Processing
Кстати никто не знает как сгенерировать из docx jpg картинку?
источник

Lyubov К. in Natural Language Processing
Alex Orgish
Если это .docx формат, то это просто zip-  архив с xml-ками. Просто можно распаковывать оттуда нужный xml, у него будет стандартное имя файла в архиве (аналогично xlsx, pptx и тд).
Если это старый doc-формат, то тут сложнее.
Doc к сожалению
источник

AO

Alex Orgish in Natural Language Processing
Тогда нужно копать в сторону библиотек POI или NPOI под нужный язык
источник

Lyubov К. in Natural Language Processing
Alex Orgish
Тогда нужно копать в сторону библиотек POI или NPOI под нужный язык
Я на Python
источник

RS

Roman Samarev in Natural Language Processing
Lyubov К.
Doc к сожалению
https://tika.apache.org/1.24.1/gettingstarted.html
java -jar tika-app.jar [option...] [file|port…]
источник
2020 October 22

DG

Denis Gordeev in Natural Language Processing
Lyubov К.
Я на Python
Textract или обёртка под tika (tika-python видимо), которую сверху скинули. Для работы с .doc питон использует библиотеку antiword.
источник

D

Dmitry in Natural Language Processing
Lyubov К.
Мне бы их прочесть сначала)
Apache POI, правда это Java.
Библиотека для чтения и записи файлов офисного пакета Microsoft Office (doc, docx, ppt, pptx, xls, xlsx)
источник

AK

Alexander Kukushkin in Natural Language Processing
Lyubov К.
Doc к сожалению
Была такая задача в практике. Для работы с doc для python не нашёл библиотек. Есть норм для docx https://python-docx.readthedocs.io/en/latest/. Поэтому на лету конвертируем doc в docx через LibreOffice soffice --convert-to docx file.doc, работаем с docx
источник

ДС

Дмитрий Симаков... in Natural Language Processing
источник

SZ

Sasha Zhu in Natural Language Processing
Коллеги, а у меня вопрос, кто-то уже файнтюнил ruGPT3?
источник

E

Elena in Natural Language Processing
GPT3 в свободном доступе? ого, вот это щедрость
источник

SZ

Sasha Zhu in Natural Language Processing
Elena
GPT3 в свободном доступе? ого, вот это щедрость
Ага, там конкурсы еще всякие есть ;)
источник

DD

Darina Dementyeva in Natural Language Processing
Sasha Zhu
Коллеги, а у меня вопрос, кто-то уже файнтюнил ruGPT3?
а вы уже файтюнили? :)
источник

SZ

Sasha Zhu in Natural Language Processing
Darina Dementyeva
а вы уже файтюнили? :)
мы вот разбираемся)
источник

DD

Darina Dementyeva in Natural Language Processing
дело в том, что у меня были попытки запуска, но что-то там все не так просто заводится
источник

AY

Alexey Yurasov in Natural Language Processing
Хм.. не могу найти ссылки на репозитории и архивы данных
источник

SZ

Sasha Zhu in Natural Language Processing
Alexey Yurasov
Хм.. не могу найти ссылки на репозитории и архивы данных
источник

AY

Alexey Yurasov in Natural Language Processing
Спасибо 🔥
источник