Телеграмм чат группы natural_language

Hello everyone

Could you please suggest good books/articles/videos learn about text classification with deep learning in steps, along with python code explanation? (RNN/LSTM/GRU/CNN) & (All types of word embedding)

источник

07:10пожаловаться #4

Nikolay in Natural Language Processing

Всем привет! У меня по результатам экспериментов с NeMo от nvidia базовые вопросы возникли, надеюсь кто-то сможет помочь с ответами. Пытаюсь дотренировать английскую модель расстановки пунктуации, которая в свою очередь дотренирована с distilbert. Дотренировываю на испанский язык. Пробовал брать tatoeba предложения, там у испанского вышло порядка 300К строк, при тренировке лосс уменьшается, а вальдейшен лосс не меняется. Если беру больший датасет, 3М строк, то памяти на gpu не хватает. Взял вот 1М строк, опять val loss за 15 эпох как был 0.2 - 0.25, так и остался. Что я делаю не так?

источник

09:28пожаловаться #5

Jane in Natural Language Processing

Всем привет 🙂
Подскажите пожалуйста, есть ли sentence-токенизаторы для русского (или похожие работы/статьи для др. языков), для разбиения в том числе сложносочиненных предложений?

источник

11:04пожаловаться #6

Jane in Natural Language Processing

Необходимо для оценки тональности

источник

11:04пожаловаться #7

David Dale in Natural Language Processing

Разбивает текст на предложения хорошо пакет razdel.
Сложные предложения я разбивал на придаточные, применяя правила к синтаксическому дереву из natasha или spacy, в большинстве случаев тоже получалось норм.

источник

11:05пожаловаться #8

Jane in Natural Language Processing

Для обычных я беру nltk токенизатор
За подсказку к наташе и спайси спасибо!

источник

11:06пожаловаться #9

Dmitriy in Natural Language Processing

А по tesseract есть специалисты тут?)
——
Не определяет одиночные цифры
( танцы с бубнами не помогают тоже)

источник

11:37пожаловаться #10

Andrey in Natural Language Processing

а какие танцы с бубном? у tesseract посмотрите параметры page segmentation mode и допустимые символы

источник

12:01пожаловаться #11

Dmitriy in Natural Language Processing

пробовал все параметры —psm osd —digits
не видит одиночную цифру и все

источник

12:25пожаловаться #12

Victor Maslov in Natural Language Processing

склей две картинки )
станет двойная

источник

12:28пожаловаться #13

Victor Maslov in Natural Language Processing

или на картинке много цифр, просто одна обособленно стоит?

источник

12:29пожаловаться #14

Andrey in Natural Language Processing

если можно, бросьте картинку

источник

12:31пожаловаться #15

Andrey in Natural Language Processing

хотя может здесь подскажут, как-то более профильно
https://t.me/opencv_ru

opencv_ru

Группы близкой тематики
@ml_ru

источник

12:32пожаловаться #16

Dmitriy in Natural Language Processing

cv_ocr_784_33_50_203.jpg

(2.04 Кб)

источник

13:17пожаловаться #17

Dmitriy in Natural Language Processing

cv_ocr_994_36_51_233.jpg

(2.37 Кб)

источник

13:17пожаловаться #18

Andrey in Natural Language Processing

а высота такая - "священная корова"?.. почему бы не отквадратить.

да и тут mnist'ом вообще похоже можно пользоваться)

источник

13:23пожаловаться #19

Victor Maslov in Natural Language Processing

разбить на морфологические компоненты, взять самый центральный или самый квадратный

или "одновременно самый центральный и квадратный", придумав функцию от координат и размеров

источник

13:29пожаловаться #20