То что предложил Миколов и то что реализовал Радим, это разные вещи. Радим оптимизировал код Томаша, изначально написанный на С, кстати, с ошибками. Если у Томаша и была нейронка, то это простой Autoencoder, который нельзя назвать deep. Радим, в целях максимальной оптимизации убрал какие-либо нейросетевые архитектуры и свел задачу отпимизации к простому алгоритму, напрямую уменьшающую косинусную близость исходные векторов слов исходя из их совместной встречаемости. Об этом, кстати, рассказывал Лев Константиновский, бывший представитель gensim в России, в своих презентациях Gensim.