Телеграмм чат группы natural_language

Я когда делаю андерсемплинг, то часть семплю равновероятно, а часть - стратифицированно по каким-то простым признакам, выбранным мною экспертно. Например, по датам или длинам сообщений.

источник

14:16пожаловаться #5

dePuff in Natural Language Processing

Понятия не имею. Я же не настоящий NLPник :)

источник

14:17пожаловаться #6

E E in Natural Language Processing

Но это из раздела танцев с бубном или где-то есть убедительные эксперименты что так лучше?

источник

14:19пожаловаться #7

dePuff in Natural Language Processing

Но условно, если у меня слишком много намайненных данных для seq2seq то какой смысл мне жечь электричество, скармливая похожие примеры

источник

14:19пожаловаться #8

dePuff in Natural Language Processing

Чтобы нейронка уж точно запомнила, что яблоко это apple? :)

источник

14:20пожаловаться #9

E E in Natural Language Processing

Если тестовое распределение такое же есть смысл побольше показывать модели примеры из областей пространства входов с высокой плотностью.

источник

14:20пожаловаться #10

David Dale in Natural Language Processing

Танцы с бубном.
Обычно я так делаю, когда нужно разметить вручную небольшую выборку, и я хочу её перебалансировать в направлении большего разнообразия.
Но вообще вместо этого можно активное обучение фигачить.

источник

14:21пожаловаться #11

E E in Natural Language Processing

Да. Нейронки же судя по последним данным тупо интерполируют.

источник

14:21пожаловаться #12

dePuff in Natural Language Processing

seq2seq пусть будет переводчик с русского на английский.

Реально нужно больше примеров с привет и пока, так как часто встречается в письмах, что мы будем переводить?

источник

14:21пожаловаться #13

dePuff in Natural Language Processing

Или можно смело выкинуть половину из них? :)

источник

14:22пожаловаться #14

dePuff in Natural Language Processing

Если мы на письмах учимся, к примеру

источник

14:22пожаловаться #15

E E in Natural Language Processing

Трудно сказать. Нейронки очень неустойчивы. Не поставишь точку в конце - неправильно переведет привет. Если примеров много и важно их правильно переводить, я бы не стал их резать, пусть посмотрит на них в разнообразных контекстах.

источник

14:24пожаловаться #16

Alexander Fedorenko in Natural Language Processing

Ваш вопрос навел меня на одну идею, которую хочу применить в своей одной задаче, а в качестве инструмента андерсемплинга планирую применить это решение
http://glemaitre.github.io/imbalanced-learn/generated/imblearn.under_sampling.ClusterCentroids.html

источник

15:12пожаловаться #17

cnstntn kndrtv in Natural Language Processing

Привет. Подскажите, чем на Питоне перевести текст с английского на русский? Так чтобы точно, бесплатно и самое сложное - замапить слова между переводами.
Примерно так: Кот на коврике -> The cat is on the mat Кот = Cat, коврике = mat

источник

16:56пожаловаться #18

Shamil Nurkaev in Natural Language Processing

Во многих документах есть четкая структура, небольшие оглавления, названия параграфов. У них обычный шрифт, не выделены жирным, но человек может легко понять, что это вроде темы. Как можно было бы выявлять их?

источник

17:09пожаловаться #19

Andrey in Natural Language Processing

как идея, на основе механизма bert-extractive-summarizer. он каждое предложение векторизует бертом, потом отбирает по ближайшим к центроидам.

здесь по аналогии. заголовок ближе ко всем остальным предложениям, чем какое-либо другое

гипотеза на попробовать

источник

17:13пожаловаться #20