Увидел свежий проект
ThisWordDoesNotExist.com от
Томаса Димсона. Система выдумывает новые слова и генерирует к ним описания в виде словарных статей. На сайте можно посмотреть случайные слова или получить описание к самостоятельно придуманному, имеется также
твитер-бот. Я,
как обычно, полез
читать код, в надежде подсмотреть интересных костылей. Код на базе huggingface, основная сетка - GPT2, доучивалась на распаршенном
UrbanDictionary.com. Сеть генерирует словарные статьи с нуля, дальше эвристики на регулярках пытаются в выхлопе сетки разобрать нужную структуру - слово, описание, примеры употребления и т.п.. Слово проверяется на наличие в блэклисте, который содержит большой набор уже существующих слов и производных. Уже при показе на сайте делается чистка от плохих слов в описании с помощью
словаря регулярок. В коде видны попытки использовать перевзвешивание loss, но, вроде, в итоговую версию они не попали. В общем, всё довольно просто, голая GPT2 + парсер выхлопа.