Телеграмм чат группы natural_language

Коммерческие версии тарифицируются в зависимости от объема данных прогоняемых через систему. До конца года у нас работает специальная цена: минимальный тариф составляет 6000 руб/мес, либо 60 000 руб/год за обработку 6 млн символов/мес. Ну и есть бесплатный триал системы на месяц.

источник

00:59пожаловаться #4

SA

Sergei Ananyan in Natural Language Processing

Sasha Korovii

А как ви привязали сущность к странице Википедии?

Саша, технология привязки к Википедии не входит в предлагаемую систему, а реализована в дополнение к ней. Это отдельный модуль, который у нас реализован для показа демки системы. Наверное это можно использовать и коммерчески, но это уже не ко мне вопрос. Если захотите рассказать про свой проект, возможно мы сможем Вам помочь. Присылайте свои координаты, и я Вас познакомлю с нужными людьми.

источник

01:05пожаловаться #5

V

Vlad in Natural Language Processing

Sergey Silyuk

Всем привет.
Подскажите, пожалуйста, какие есть готовые решения исправления орфографии и неправильного написания слов для русского языка?

Посмотрите на JamSpell, вроде бы ничего качественнее и оптимальнее по ресурсам тут не предлагали: https://github.com/bakwc/JamSpell

У него ещё есть Pro версия (40$ для небольшой компании), я её приобрёл потыкать — она работает намного качественнее, чем опенсорсная версия, но в несколько раз медленнее и потребляет много оперативы (в зависимости от модели от 1Гб до 4.5Гб).

Советую сразу обучить свою модель на большем объёме текста (подойдут статьи из википедии и прочих ресурсов), стандартная опенсорс модель мало слов знает. Это делается легко и не требует особых ресурсов для этого.

GitHub

bakwc/JamSpell

Modern spell checking library - accurate, fast, multi-language - bakwc/JamSpell

источник

02:28пожаловаться #6

SA

Sergei Ananyan in Natural Language Processing

Николай Карпенко

gpu под виндой использует ваш сервер?

Николай, увидел еще Ваш вопрос. Для работы модуля Sapremo gpu не нужна. Он и так будет летать по сравнению с другими NER, так как основан на лингвистических правилах. А вот другой ML NER от Мегапьютера, работающий на deep learning алгоритмах, - этот как раз может работать на gpu под виндой. Ускорение на gpu по сравнению с i7 будет на один порядок в среднем. Но это все равно на порядок или даже больше медленнее, чем дает Sapremo на самом обычном i7 (причем как при обучении, так и при применении моделей - это вообще пока беда всех систем на deep learning). Этот ML NER от Мегапьютера доступен сейчас только в составе нашей основной системы PolyAnalyst. Возможно, в недалеком будущем мы его тоже станем предлагать в виде отдельного модуля.

источник

02:53пожаловаться #7

НК

Николай Карпенко... in Natural Language Processing

Sergei Ananyan

Коммерческие версии тарифицируются в зависимости от объема данных прогоняемых через систему. До конца года у нас работает специальная цена: минимальный тариф составляет 6000 руб/мес, либо 60 000 руб/год за обработку 6 млн символов/мес. Ну и есть бесплатный триал системы на месяц.

Почему бы не завернуть в виртуальную машину и платить за аренду машины, а не посимвольно? Клиент разворачивает на своем железе и сколько надо ему, столько и просчитывает?

Обработать 12 книжек за 6000 рублей в месяц? Золотодобыча какая-то 😂

источник

08:37пожаловаться #8

НК

Николай Карпенко... in Natural Language Processing

Sergei Ananyan

Николай, увидел еще Ваш вопрос. Для работы модуля Sapremo gpu не нужна. Он и так будет летать по сравнению с другими NER, так как основан на лингвистических правилах. А вот другой ML NER от Мегапьютера, работающий на deep learning алгоритмах, - этот как раз может работать на gpu под виндой. Ускорение на gpu по сравнению с i7 будет на один порядок в среднем. Но это все равно на порядок или даже больше медленнее, чем дает Sapremo на самом обычном i7 (причем как при обучении, так и при применении моделей - это вообще пока беда всех систем на deep learning). Этот ML NER от Мегапьютера доступен сейчас только в составе нашей основной системы PolyAnalyst. Возможно, в недалеком будущем мы его тоже станем предлагать в виде отдельного модуля.

Вангую будет существенный прогресс в скорости, если Sapremo на gpu переписать. Например, регулярные выражения от 5 раз быстрее на gpu. Учитывая паралеллизм и бурный рост числа процессоров gpu, в этом будет толк.

источник

08:42пожаловаться #9

A

Andrei in Natural Language Processing

Николай Карпенко

Вангую будет существенный прогресс в скорости, если Sapremo на gpu переписать. Например, регулярные выражения от 5 раз быстрее на gpu. Учитывая паралеллизм и бурный рост числа процессоров gpu, в этом будет толк.

регулярки сами по себе разве параллелятся?

источник

10:15пожаловаться #10

AT

Anastasia Tretyakova in Natural Language Processing

Добрый день, подскажите,пожалуйста как исправить такую ошибку?
репозиторий— https://github.com/tesseract-ocr/tesstrain

GitHub

tesseract-ocr/tesstrain

Train Tesseract LSTM with make. Contribute to tesseract-ocr/tesstrain development by creating an account on GitHub.

источник

10:20пожаловаться #11

AT

Anastasia Tretyakova in Natural Language Processing

Переслано от Anastasia Tretyakova

anast@LAPTOP-74556HRF MINGW64 ~/Documents/GitHub/tesstrain (master)
$ make training
find data/foo-ground-truth -name '*.gt.txt' | xargs cat | sort | uniq > "data/foo/all-gt"
unicharset_extractor --output_unicharset "data/foo/unicharset" --norm_mode 2 "data/foo/all-gt"
/usr/bin/sh: unicharset_extractor: command not found
make: *** [Makefile:186: data/foo/unicharset] Error 127

источник

10:20пожаловаться #12

AT

Anastasia Tretyakova in Natural Language Processing

запускаю из git bash

источник

10:20пожаловаться #13

AT

Anastasia Tretyakova in Natural Language Processing

скрипт makefile

источник

10:21пожаловаться #14

НК

Николай Карпенко... in Natural Language Processing

Andrei

регулярки сами по себе разве параллелятся?

https://madhumithasridhara.github.io/QuickMatch/

источник

10:46пожаловаться #15

A

Andrei in Natural Language Processing

Николай Карпенко

https://madhumithasridhara.github.io/QuickMatch/

там написано

The implementation parallelizes Regular Expression matching across lines in a file

по линиям это не как-то ен совсем регулярки сами по себе

источник

11:03пожаловаться #16

AP

Anatoliy Polischuk in Natural Language Processing

Подскажите, пожалуйста, известны ли кому open-source решения поиска печатей в pdf документах? В каком направлении искать информацию? Google-ние пока результатов не дало. Спасибо.

источник

11:58пожаловаться #17

MK

Max Kuznetsov in Natural Language Processing

Anatoliy Polischuk

Подскажите, пожалуйста, известны ли кому open-source решения поиска печатей в pdf документах? В каком направлении искать информацию? Google-ние пока результатов не дало. Спасибо.

Сомневаюсь, что такое кто-то будет выкладывать в опен сорс.

источник

12:26пожаловаться #18

AP

Anatoliy Polischuk in Natural Language Processing

Max Kuznetsov

Сомневаюсь, что такое кто-то будет выкладывать в опен сорс.

Ясно. Так и предполагал. Спасибо :)

источник

12:47пожаловаться #19

AK

Alexander Kukushkin in Natural Language Processing

Мне тут стало интересно провести инвентаризацию пабликов про NLP на русском. Дополняйте:
- https://t.me/natural_language_processing — этот чат, изначально чат пользователей проекта Natasha
- https://ods.ai/ #nlp
- https://t.me/dlinnlp2020spring https://t.me/dlinnlp https://t.me/dlinnlp_discuss — МФТИ
- https://t.me/nlp_seminar https://t.me/nlp_spb — Вышка
- https://t.me/NLP_weekly — ШАД
- https://t.me/nlp_ru
- https://t.me/towards_nlp
- https://t.me/Pullenti
- https://vk.com/mathlingvo
- https://www.facebook.com/dialogue21 — конференция Диалог
- https://t.me/liliyanews

источник

12:59пожаловаться #20