Size: a a a

Natural Language Processing

2020 December 15

AT

Andrey Tatarinov in Natural Language Processing
> вот ее как загрузить при отсутсвии интернета?

перенести на сервер и положить в то же место, где она была в момент обучения
источник

MK

Marat Khuzhayarov in Natural Language Processing
Andrey Tatarinov
> вот ее как загрузить при отсутсвии интернета?

перенести на сервер и положить в то же место, где она была в момент обучения
аааа) ну вот мы так и сделали)))
источник

MK

Marat Khuzhayarov in Natural Language Processing
Оки. Спасибо!
источник

AT

Andrey Tatarinov in Natural Language Processing
но вообще GPT2 звучит как дикий оверкил 🙂
источник

MK

Marat Khuzhayarov in Natural Language Processing
что посоветовали бы вместо него?
источник

DD

David Dale in Natural Language Processing
Marat Khuzhayarov
что посоветовали бы вместо него?
bert или fasttext обычно хорошие эмбеддинги дают
источник

AT

Andrey Tatarinov in Natural Language Processing
берт - ок. мы брали deeppavlov-ский rubert если не ошибаюсь.
источник

A

Anton in Natural Language Processing
Katya Dodonova
Ребята, привет! столкнулась с задачей перевода большого объема англоязычного датасета на русский язык. Возможно существуют какие-то подходы или инструменты для этого?
transformer.wmt19.en-ru Transformer

Переводит хорошо, но долго. Лучше гонять на GPU. Предварительно разбить на предложения, так как есть ограничение по длине фразы.
источник

VF

Vadim Fomin in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 Jean-Philippe Eveliina кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@wadimiusz, @h3x_m0nst3r, Jean-Philippe Eveliina, @Cookie_thief, @YuriyGal
При поддержке Тудуранта
источник

ES

Eugene Solomatin in Natural Language Processing
Nick Mikhailovsky
Алгоритмы, лежащие в основе поиска в электронной коммерции, проделали долгий путь от традиционных технологий поисковой индексации до машинного обучения. Интеграции современных достижений ИИ в ретейле привела к стремительному росту понимания поисковых запросов покупателей.  

Доклад Алисы Жилы, ведущего датасайнтиста Target Corp., на очередном вебинаре НТРт и HITS ТГУ, является обзором технологий текстовой классификации, основанной на нейросетях, используемых в поисковике большой ретейловой компании.

Мы рассмотрим основные сценарии использования применения текстовых классификаторов; поймем, почему применение одних общеизвестных архитектур нейросетей лучше, чем других; обсудим, какие эвристики аугментации тренировочных данных можно использовать, опираясь на уже имеющиеся данные, обычно доступные в ретейл-компаниях.

Рекомендуемая подготовка:
* Общее знакомство с архитектурами Recurrent Neural Network (RNN)  и Convolutional NN (CNN).
* Статья Yoon Kim (2014)
Convolutional Neural Networks for Sentence Classification
* Ye Zhang, Byron Wallace (2015)
A Sensitivity Analysis of (and Practitioners' Guide to) Convolutional Neural Networks for Sentence Classification
Вебинар пройдет 15 декабря, в 10:00 МСК (14:00 по Томску). Регистрация - https://us02web.zoom.us/webinar/register/1515989556145/WN_TquI52hETkOOsvCTUW-zQQ
Не увидел ((😭😭😭
А запись будет?
источник
2020 December 16

NM

Nick Mikhailovsky in Natural Language Processing
Eugene Solomatin
Не увидел ((😭😭😭
А запись будет?
Обязательно, на ntr.ai, в Фейсбуке и телеграме
источник

K

Kutuz4 in Natural Language Processing
Товарищи, такой вопрос: есть коллекция текстов, к каждому экземпляру есть некоторое количество вопросов и метка - правда или нет, исходя из текста. Необходимо построить модель, которая бы смогла для новых текстов отвечать на похожие вопросы
источник

ДС

Дмитрий Симаков... in Natural Language Processing
Текст есть. А вопроса нет.
источник

D

Dmitry in Natural Language Processing
Человеку решение нужно. Го-то-во-е)
источник

D

Dmitry in Natural Language Processing
Оно есть кстати)
источник

D

Dmitry in Natural Language Processing
Простое очень
источник

G

Gwyn_ny in Natural Language Processing
Привет, ребята! Как обычно заменяется sensitive data в документах (фио и тп), чтобы потом можно было обратно расшифровать? Хэш? NAME + айдишник человека в таблице (NAME_id1234, LOC_id1234)?
источник

A

Andrei in Natural Language Processing
Gwyn_ny
Привет, ребята! Как обычно заменяется sensitive data в документах (фио и тп), чтобы потом можно было обратно расшифровать? Хэш? NAME + айдишник человека в таблице (NAME_id1234, LOC_id1234)?
можно зашифровать, если это не оверкилл

а если данные у тебя будут все под рукой, то можно хэш от строки юзать. по нему не восстановить текст, но можно сравнивать с хэшами хранящихся данных и если совпало значит оно и есть
источник

Miss Очепятка... in Natural Language Processing
Gwyn_ny
Привет, ребята! Как обычно заменяется sensitive data в документах (фио и тп), чтобы потом можно было обратно расшифровать? Хэш? NAME + айдишник человека в таблице (NAME_id1234, LOC_id1234)?
Элементарно данные храните на сервере, а не в документах. От оператора ставим лимит запросов. От админа защищаемся шифрование любым гамированием ключ храним в программе в бинарном виде. От хакера защищаемся  заменой по словарю. Саша в  Машу.
источник