Size: a a a

Natural Language Processing

2021 August 07

d

dePuff in Natural Language Processing
Тысячу жирных юзеров разметили
У нас выборка в миллионы сообщений размечена
источник

FF

Futorio Franklin in Natural Language Processing
Ну тогда парсим личные местоимения, кроме прямой речи, и ищем связанные с ним слова глаголы или прилагательные
источник

d

dePuff in Natural Language Processing
Юзеров тоже по текстам разметить
источник

d

dePuff in Natural Language Processing
Эвристиками
источник

GV

Gio Vani in Natural Language Processing
Спасибо
источник

N

Natalia in Natural Language Processing
ну вы как бы забываете вот что

если у вас рандомным образом будет "как дела?" в 80% у мужчин и в 20% у женщин, то о чём это вообще говорит
источник

N

Natalia in Natural Language Processing
но ладно, пойду-ка я отсюда
источник

N

Natalia in Natural Language Processing
ещё раз привет тем ребятам, которые используют класс "не определить"
источник

FF

Futorio Franklin in Natural Language Processing
Это, конечно, вилами по воде, но мне кажется, что сеть примерно этому же обучится, потому что информации, которую можно использовать в этом случае крайне мало
источник

GV

Gio Vani in Natural Language Processing
Спасибо всем за ответы.
источник

🐙

🐙 in Natural Language Processing
Кстати, я тоже поддержу идею с личными местоимениями:
1. Выкачиваем чат, фильтруем цитаты и прочий мусор.
2. Сортируем сообщения по пользователям.
3. Смотрим консистентность употребления "я + глагол прошедшего времени".
4. Присваиваем всем сообщениям класс в зависимости от выбранного порога консистентности.

Простите, что капитаню, но есть шансы, что я тоже такое потом буду искать.
источник

KL

Kir L in Natural Language Processing
Коллеги, может у кого-то будут идеи.
Извлекаем наименования компаний из текста, который весь в нижнем регистре. Наташей.
Увы, из-за нижнего регистра получается плохая полнота.
Конечно попробовали все поставить в верхний - полнота улучшилась, но поплохела точность –полезло много лишнего.

Есть идеи как это решить?
Пока не пробовал вот что: ставить в верхний регистр только существительные.
источник

SancheZz Мов in Natural Language Processing
Взять наташей разметить в верхнем регистре, перевести в нижний и обучить свой нер
источник

SancheZz Мов in Natural Language Processing
:)
источник

KL

Kir L in Natural Language Processing
Не совсем понял( если все перевести в верхней, много лишнего
источник

SancheZz Мов in Natural Language Processing
Взять другой сет
источник

SancheZz Мов in Natural Language Processing
Его разметить наташей
источник

SancheZz Мов in Natural Language Processing
Например сет Сибура
источник

SancheZz Мов in Natural Language Processing
Соревнования метчинг имен компаний
источник

SancheZz Мов in Natural Language Processing
Там было описание + имя
источник