Size: a a a

Natural Language Processing

2020 November 22

OS

Oleg Serikov in Natural Language Processing
Evgeniy Blinov
А оффлайн есть идеи?
http://opencorpora.org/?page=downloads
скачать опенкорпору или тот  же викшонари
источник

EB

Evgeniy Blinov in Natural Language Processing
Спасибо!
источник

EB

Evgeniy Blinov in Natural Language Processing
И еще, подскажите, какой сейчас самый удобный способ отсеять основные стоп-слова на русском?
источник

EB

Evgeniy Blinov in Natural Language Processing
Всякие предлоги, союзы
источник

Miss Очепятка... in Natural Language Processing
Evgeniy Blinov
Добрый день. Подскажите, как бороться с переносами слов при сканировании текста через OCR?
Соединить. И все дела.
источник

OS

Oleg Serikov in Natural Language Processing
Evgeniy Blinov
И еще, подскажите, какой сейчас самый удобный способ отсеять основные стоп-слова на русском?
фильтровать по списку стопслов обычно норм
источник

EB

Evgeniy Blinov in Natural Language Processing
Oleg Serikov
фильтровать по списку стопслов обычно норм
А либа с готовым списком есть?
источник

OS

Oleg Serikov in Natural Language Processing
Evgeniy Blinov
А либа с готовым списком есть?
nltk напр
источник

OS

Oleg Serikov in Natural Language Processing
да можно просто на гитхабе найти чейнить файлик
источник

EB

Evgeniy Blinov in Natural Language Processing
Miss Очепятка
Соединить. И все дела.
OCR возвращает строку, где иногда пропущены символы переноса строки. Там, где они есть, это не всегда означает нужду в склеивании.
источник

EB

Evgeniy Blinov in Natural Language Processing
Oleg Serikov
nltk напр
Окей, спасибо
источник

Miss Очепятка... in Natural Language Processing
Evgeniy Blinov
OCR возвращает строку, где иногда пропущены символы переноса строки. Там, где они есть, это не всегда означает нужду в склеивании.
Файнридер редко пропускает мне достаточно.
{Проверяем оканчивается слово переносом}
{Используется состояние конечного автомата из Text}
function IsHyphen(Word:String; var Text:TText):boolean;
begin
Result:=False;
if (Word[Length(Word)]='-') or (Word[Length(Word)]='¬') then
     if IsNewLineChar(FCurrentChar(Text)) then
       Result:=True;
end;
источник

EB

Evgeniy Blinov in Natural Language Processing
Miss Очепятка
Файнридер редко пропускает мне достаточно.
{Проверяем оканчивается слово переносом}
{Используется состояние конечного автомата из Text}
function IsHyphen(Word:String; var Text:TText):boolean;
begin
Result:=False;
if (Word[Length(Word)]='-') or (Word[Length(Word)]='¬') then
     if IsNewLineChar(FCurrentChar(Text)) then
       Result:=True;
end;
Спасибо. Я использовал Tesseract, он пропускает частенько, причем иногда переносы вообще рандомно двоеточиями заменяет.
источник

KS

Konstantin Smith in Natural Language Processing
Evgeniy Blinov
Добрый день. Подскажите, как бороться с переносами слов при сканировании текста через OCR?
Я эту проблему решал средствами Pullenti - там можно проверить, принадлежит ли слово словарю русского языка. Да и вообще Pullenti эту задачу решает автоматом, а если установить опции в SourceOfAnalysis, то может и ошибки исправлять.
источник
2020 November 23

VI

Vitaly Ivanin in Natural Language Processing
Подскажите, кто работал с rasa. Есть ли возможность выставить button_type: vertical как-нибудь? Вроде где-то на форуме расы писали, что так можно, а у меня не работает
источник

A

Andrey in Natural Language Processing
Привет, я работаю над проектом, который может помочь в разработке решений, связанных с семантическим поиском, матчингом и рекомендательными системами.
Хочу лучше понять актуальные проблемы, поэтому ищу кого-нибудь, кто с этими технологиями работал и мог бы ответить на пару вопросов про свой опыт
источник

A

Andrey in Natural Language Processing
Зареплайте плз, если релеватно, напишу в личку
источник

A

Artem in Natural Language Processing
Vitaly Ivanin
Подскажите, кто работал с rasa. Есть ли возможность выставить button_type: vertical как-нибудь? Вроде где-то на форуме расы писали, что так можно, а у меня не работает
источник

A

Artem in Natural Language Processing
тело сообщения должно быть
источник

VI

Vitaly Ivanin in Natural Language Processing
это не совсем то. у него кастомный action. я же пытаюсь добавить этот аттрибут в  domain.yml к стандартным buttons, как советуют в другом топике этого форума, и у меня это не работает
источник