И еще такой вопрос, а кто делал тональность для новости в зависимости от слова, например в какой-то новости упоминается персона, новость позитивная, а упоминания про персону нейтральное
А ха ха , там все еще сложнее, stance, bias, контекст... Пока только скребут пр поверхеости. Можно забить, обычнл для источника все стандартно, можно пытаться стабилизировать средним. Если ошибки важны, нужен редактор.
Обрабатывется 100 тысяч новостей в день, а на морду или в справку идет 100.
Всем привет! Наш семинар возобновляет вещание. Приглашаем вас в четверг, 11 февраля, в 19-00.
Тема: "Spacy для NLP: прошлое, настоящее, будущее".
Докладчик: Юрий Бабуров, CTO в компании ApRbot (обработка неструктурированных документов), создатель библиотек spaCy-Ru, python-readability и соавтор крупнейшего корпуса русской речи OpenSTT, преподаватель курса по нейросетям в магистратуре НГУ, соавтор курса https://dlcourse.ai
Аннотация: Spacy для NLP: прошлое, настоящее, будущее. Расскажу про задачи, которые решает пакет Spacy, и про то, как он это делает. Морфология и лемматизация, NER, синтаксический анализ, классификация. SOTA или скорость.
Всем привет! Подскажите, может у кого был опыт. Тыкаю bigartm. Как там можно задать заранее какие-то темы? Как Seeded lda (где мы проставляем ключевые слова темы), но желательно просто подать на модель размеченные тексты заранее определенных тем, и все остальные тексты.
Доброй ночи! Подскажите нубу: вот у меня есть в txt некоторое количество книг, и я хочу создать из них датасет для задачи "моделирования языка". Правильно я понимаю, что нужно сперва нужно перевести тексты в таблицу вида "предложение1":"предложение2", притом, чтобы их длины были одинаковы? А потом уже в с помощью torchtext и spacy создать датасет для загрузки в какую-нибудь сетку типа трансформера?
Доброй ночи! Подскажите нубу: вот у меня есть в txt некоторое количество книг, и я хочу создать из них датасет для задачи "моделирования языка". Правильно я понимаю, что нужно сперва нужно перевести тексты в таблицу вида "предложение1":"предложение2", притом, чтобы их длины были одинаковы? А потом уже в с помощью torchtext и spacy создать датасет для загрузки в какую-нибудь сетку типа трансформера?
Не знаю зачем там одинаковые длины (padding батча в loader можно организовать), но getitem от torch.utils.data.Dataset вполне можно научить выдавать два последовательных элемента из списка )
Не знаю зачем там одинаковые длины (padding батча в loader можно организовать), но getitem от torch.utils.data.Dataset вполне можно научить выдавать два последовательных элемента из списка )
Torchtext это бесполезная боль, imho
Так, что
from torch.utils.data import Dataset, DataLoader
И вперёд
Спасибо за ответ! А что не так с torchtext? Видел примеры, где с его помощью из csv или json делали загрузчики данных.
Спасибо за ответ! А что не так с torchtext? Видел примеры, где с его помощью из csv или json делали загрузчики данных.
Я бы поставил вопрос как: а что с ним вообще так?
Это конечно классно вызывать
build_vocabulary
над
Field
(мог ошибиться с названием метода), только потом узнаёшь, что этот метод тебе не нужен, возможностей Field тебе мало, а то что тебе нужно очень уродливо реализовывать посредством torchtext