Набор Russian Language Toxic Comments Dataset представляет собой коллекцию аннотированных комментариев с сайтов Двач и Пикабу. Он опубликован на Kaggle в 2019-м и содержит 14 412 комментариев, из которых 4 826 помечены как токсичные, а 9 586 — как нетоксичные.