Телеграмм чат группы natural_language

2020 November 10

SS

Sergey Sikorskiy in Natural Language Processing

BTW, there is a dedicated ontology chat: https://t.me/rusontology
But it is in Russian :)

источник

06:21пожаловаться #1

MD

Massimo D in Natural Language Processing

Sergey Sikorskiy

Original Wordnet is stored in a weird text format, but you can find different tools, which convert it into a database.
After that you can use any database tool to work with data.
Example: WordNet 3.0 browser

Finally I got the answer that was looking for! Thanks for your description

источник

08:32пожаловаться #2

MD

Massimo D in Natural Language Processing

I couldnt understand how that works.

источник

08:32пожаловаться #3

SZ

Sergey Zhuravlev in Natural Language Processing

Добрый день. Подскажите нет ли сервиса со словарем сокращений и аббревиатур русского языка с API?

источник

12:45пожаловаться #4

IJ

IL Jah in Natural Language Processing

@Pernat На сколько я помню - многие аббревиатуры есть на википедии и апи для поиска у них реализован

источник

14:14пожаловаться #5

SK

Sasha Korovii in Natural Language Processing

Здравствуйте, а кто делал подсветку слов в тексте, например у меня есть 10 слов мне нужно найти в тексте их и вставить теги. Регулярки на большом количестве слов очень медленнее. Перед началом извлекаю из слова стем, чтобы найти все словоформы. Например, использовал ahocorasick, но он ищет границы стема, а мне нужно границы слова. Может кто сталкивался с подобной задачей?

источник

15:53пожаловаться #6

AS

Alex Surname in Natural Language Processing

Sasha Korovii

Здравствуйте, а кто делал подсветку слов в тексте, например у меня есть 10 слов мне нужно найти в тексте их и вставить теги. Регулярки на большом количестве слов очень медленнее. Перед началом извлекаю из слова стем, чтобы найти все словоформы. Например, использовал ahocorasick, но он ищет границы стема, а мне нужно границы слова. Может кто сталкивался с подобной задачей?

зачем стем?

источник

16:22пожаловаться #7

AS

Alex Surname in Natural Language Processing

банальный поиск подстроки пробовали?

источник

16:23пожаловаться #8

AS

Alex Surname in Natural Language Processing

есть алгоритмы для более быстрого нахождения подстроки

источник

16:23пожаловаться #9

AS

Alex Surname in Natural Language Processing

если текст английский утф8, использовать для итерации однобайтовую кодировку и более быстрый язык

источник

16:23пожаловаться #10

AS

Alex Surname in Natural Language Processing

+оптимизации по ИО, посмотреть в сторону маппинга

источник

16:23пожаловаться #11

KS

Konstantin Smith in Natural Language Processing

Sasha Korovii

Здравствуйте, а кто делал подсветку слов в тексте, например у меня есть 10 слов мне нужно найти в тексте их и вставить теги. Регулярки на большом количестве слов очень медленнее. Перед началом извлекаю из слова стем, чтобы найти все словоформы. Например, использовал ahocorasick, но он ищет границы стема, а мне нужно границы слова. Может кто сталкивался с подобной задачей?

В Pullenti на пустом процессоре (без анализаторов) запускаем текст, получаем на выходе последовательность токенов (слов), в которых сделана (1) нормализация, то есть(можно проверить на одно или множество искомых слов и (2) у каждого токена есть BeginChar\EndChar - позиции в исходном тексте. Это решает задачу.

источник

16:33пожаловаться #12

SK

Sasha Korovii in Natural Language Processing

Alex Surname

зачем стем?

Ну совпадения искать например у меня есть стем зелен (зеленый) и, чтобы находить слова зеленого, зеленим и т.д.

источник

16:41пожаловаться #13

AS

Alex Surname in Natural Language Processing

Sasha Korovii

Ну совпадения искать например у меня есть стем зелен (зеленый) и, чтобы находить слова зеленого, зеленим и т.д.

ну так вы с задачей определитесь: вам нужно точное слово найти или другое что-то

источник

16:43пожаловаться #14

SK

Sasha Korovii in Natural Language Processing

Alex Surname

ну так вы с задачей определитесь: вам нужно точное слово найти или другое что-то

Не точный поиск слов в тексте, нужно подсвечивать все варианты слова

источник

16:46пожаловаться #15

DK

Dmitri Kapustin in Natural Language Processing

Посмотрел новую перезентацию нового M1 процесора Apple. Где они рассказывают про мощь процессора в нейронках. Возник вопрос. А кто то тренировал модельки на Apple Mac? Задействуя всю мощь железа и движок Metal? Я нашел у них, SDK только конверторы готовых, просчитанных моделей, в их Core ML формат. Такое чувство, что обучать придется все равно не на Apple, а там где есть Nvidia CUDA.

источник

22:31пожаловаться #16

CT

Cookie Thief in Natural Language Processing

Dmitri Kapustin

Посмотрел новую перезентацию нового M1 процесора Apple. Где они рассказывают про мощь процессора в нейронках. Возник вопрос. А кто то тренировал модельки на Apple Mac? Задействуя всю мощь железа и движок Metal? Я нашел у них, SDK только конверторы готовых, просчитанных моделей, в их Core ML формат. Такое чувство, что обучать придется все равно не на Apple, а там где есть Nvidia CUDA.

Подозреваю, что там речь шла не о тренеровке модели, а об инференсе

источник

22:34пожаловаться #17

MK

Marat Khuzhayarov in Natural Language Processing

Dmitri Kapustin

Посмотрел новую перезентацию нового M1 процесора Apple. Где они рассказывают про мощь процессора в нейронках. Возник вопрос. А кто то тренировал модельки на Apple Mac? Задействуя всю мощь железа и движок Metal? Я нашел у них, SDK только конверторы готовых, просчитанных моделей, в их Core ML формат. Такое чувство, что обучать придется все равно не на Apple, а там где есть Nvidia CUDA.

я тренировал, но это был не tensor flow. Они выпустили свою мини студию для ML. https://developer.apple.com/machine-learning/create-ml/

Apple Developer

Create ML - Machine Learning - Apple Developer

Experience an entirely new way of training machine learning models on your Mac. Create ML takes the complexity out of model training while producing powerful Core ML models.

источник

22:37пожаловаться #18

MK

Marat Khuzhayarov in Natural Language Processing

там довольно узкий класс задач

источник

22:38пожаловаться #19

MK

Marat Khuzhayarov in Natural Language Processing

и плюс модели только для core ml

источник

22:38пожаловаться #20