Я не специалист по эмбеддингам документов, но интуиция подсказывает, что если смысл отдельно взятого предложения можно полностью уложить в 500-мерный вектор, то смысл документа размером в несколько абзацев - уже не упихнешь без потери информации. Поэтому надеяться на получение "универсальных" эмбеддингов документов не стоит, и лучше сразу обучать эмбеддинги для конкретной supervised задачи, которую вы собираетесь решать, и на конкретном домене.