Size: a a a

Natural Language Processing

2021 July 27

K

Kutuz4 in Natural Language Processing
MoneyExtractor
источник

K

Kutuz4 in Natural Language Processing
Внутри неё
источник

AP

Arsen Plus in Natural Language Processing
спасибо!
источник
2021 July 28

T.

Tarf .. in Natural Language Processing
Hello everyone

Could you please suggest good books/articles/videos learn about text classification with deep learning in steps, along with python code explanation?  (RNN/LSTM/GRU/CNN)  & (All types of word embedding)
источник

N

Nikolay in Natural Language Processing
Всем привет! У меня по результатам экспериментов с NeMo от nvidia базовые вопросы возникли, надеюсь кто-то сможет помочь с ответами. Пытаюсь дотренировать английскую модель расстановки пунктуации, которая в свою очередь дотренирована с distilbert. Дотренировываю на испанский язык. Пробовал брать tatoeba предложения, там у испанского вышло порядка 300К строк, при тренировке лосс уменьшается, а вальдейшен лосс не меняется. Если беру больший датасет, 3М строк, то памяти на gpu не хватает. Взял вот 1М строк, опять val loss за 15 эпох как был 0.2 - 0.25, так и остался. Что я делаю не так?
источник

J

Jane in Natural Language Processing
Всем привет 🙂
Подскажите пожалуйста, есть ли sentence-токенизаторы для русского (или похожие работы/статьи для др. языков), для разбиения в том числе сложносочиненных предложений?
источник

J

Jane in Natural Language Processing
Необходимо для оценки тональности
источник

DD

David Dale in Natural Language Processing
Разбивает текст на предложения хорошо пакет razdel.
Сложные предложения я разбивал на придаточные, применяя правила к синтаксическому дереву из natasha или spacy, в большинстве случаев тоже получалось норм.
источник

J

Jane in Natural Language Processing
Для обычных я беру nltk токенизатор
За подсказку к наташе и спайси спасибо!
источник

D

Dmitriy in Natural Language Processing
А по tesseract есть специалисты тут?)
——
Не определяет одиночные цифры
( танцы с бубнами  не помогают тоже)
источник

A

Andrey in Natural Language Processing
а какие танцы с бубном? у tesseract посмотрите параметры page segmentation mode и допустимые символы
источник

D

Dmitriy in Natural Language Processing
пробовал все параметры  —psm  osd   —digits
не видит  одиночную цифру и все
источник

VM

Victor Maslov in Natural Language Processing
склей две картинки )
станет двойная
источник

VM

Victor Maslov in Natural Language Processing
или на картинке много цифр, просто одна обособленно стоит?
источник

A

Andrey in Natural Language Processing
если можно, бросьте картинку
источник

A

Andrey in Natural Language Processing
хотя может здесь подскажут, как-то более профильно
https://t.me/opencv_ru
источник

D

Dmitriy in Natural Language Processing
источник

D

Dmitriy in Natural Language Processing
источник

A

Andrey in Natural Language Processing
а высота такая - "священная корова"?.. почему бы не отквадратить.

да и тут mnist'ом вообще похоже можно пользоваться)
источник

VM

Victor Maslov in Natural Language Processing
разбить на морфологические компоненты, взять самый центральный или самый квадратный

или "одновременно самый центральный и квадратный", придумав функцию от координат и размеров
источник