Size: a a a

Natural Language Processing

2021 September 15

VF

Vadim Fomin in Natural Language Processing
Вы уже спрашивали это вчера!
источник

M

Maksym in Natural Language Processing
У нас сложные процессы с плане СБ и защиты информацию + у нас иногда все-таки нужно приходить\приезжать в офис, не часто конечно, но бывает)
источник

AS

Artem Sergeev in Natural Language Processing
источник

EE

E E in Natural Language Processing
А что,  это уже стандартный финт при обучении? Есть статьи где показана оправданость такой фильтрации?
источник

DD

David Dale in Natural Language Processing
Я когда делаю андерсемплинг, то часть семплю равновероятно, а часть - стратифицированно по каким-то простым признакам, выбранным мною экспертно. Например, по датам или длинам сообщений.
источник

d

dePuff in Natural Language Processing
Понятия не имею. Я же не настоящий NLPник :)
источник

EE

E E in Natural Language Processing
Но это из раздела танцев с бубном или где-то есть убедительные эксперименты что так лучше?
источник

d

dePuff in Natural Language Processing
Но условно, если у меня слишком много намайненных данных для seq2seq то какой смысл мне жечь электричество, скармливая похожие примеры
источник

d

dePuff in Natural Language Processing
Чтобы нейронка уж точно запомнила, что яблоко это apple? :)
источник

EE

E E in Natural Language Processing
Если тестовое распределение такое же есть смысл побольше показывать модели примеры из областей пространства входов с высокой плотностью.
источник

DD

David Dale in Natural Language Processing
Танцы с бубном.
Обычно я так делаю, когда нужно разметить вручную небольшую выборку, и я хочу её перебалансировать в направлении большего разнообразия.
Но вообще вместо этого можно активное обучение фигачить.
источник

EE

E E in Natural Language Processing
Да.  Нейронки же судя по последним данным тупо интерполируют.
источник

d

dePuff in Natural Language Processing
seq2seq пусть будет переводчик с русского на английский.

Реально нужно больше примеров с привет и пока, так как часто встречается в письмах, что мы будем переводить?
источник

d

dePuff in Natural Language Processing
Или можно смело выкинуть половину из них? :)
источник

d

dePuff in Natural Language Processing
Если мы на письмах учимся, к примеру
источник

EE

E E in Natural Language Processing
Трудно сказать.  Нейронки очень неустойчивы. Не поставишь точку в конце - неправильно переведет привет. Если примеров много и важно их правильно переводить,  я бы не стал их резать,  пусть посмотрит на них в разнообразных контекстах.
источник

AF

Alexander Fedorenko in Natural Language Processing
Ваш вопрос навел меня на одну идею, которую хочу применить в своей одной задаче, а в качестве инструмента  андерсемплинга планирую применить это решение
http://glemaitre.github.io/imbalanced-learn/generated/imblearn.under_sampling.ClusterCentroids.html
источник

ck

cnstntn kndrtv in Natural Language Processing
Привет. Подскажите, чем на Питоне перевести текст с английского на русский? Так чтобы точно, бесплатно и самое сложное - замапить слова между переводами.
Примерно так: Кот на коврике -> The cat is on the mat  Кот = Cat, коврике = mat
источник

SN

Shamil Nurkaev in Natural Language Processing
Во многих документах есть четкая структура, небольшие оглавления, названия параграфов. У них обычный шрифт, не выделены жирным, но человек может легко понять, что это вроде темы. Как можно было бы выявлять их?
источник

A

Andrey in Natural Language Processing
как идея, на основе механизма  bert-extractive-summarizer. он каждое предложение векторизует бертом, потом отбирает по ближайшим к центроидам.

здесь по аналогии. заголовок ближе ко всем остальным предложениям, чем какое-либо другое

гипотеза на попробовать
источник