И снова комментарии к мема профунктора
https://t.me/libmustdie/2998У меня была кулстория, когда я ещё был джуном. Мы пилили свой поиск по профилям авторов статей, и пробовали делать это на основе тематического моделирования. Находить документы у которые максимально похожи на тему запроса. Заказчик жмотился нам на нормальные мощности, поэтому мы всё делали на машинах с 8ГБ ОЗУ. А документов миллиарды, тексты научные, поэтому словари там гигантские, и это требовало очень много памяти. Ну в общем, я сделал предикт чанками в файлы. Это были матрицы размером длины чанка на число тем. Потом надо было это всё собрать в одну большую разреженную матрицу. Прочитать всё и сконкатенировать не получалось опять же из-за памяти. Тимлид тогда написал баш-скрипт, который сортировал файлы и склеивал в один. Потом я читал это дело за один раз и сразу делал одну матрицу, и всё это со скрипом пролезало в память. Ну всё, вроде скрипты отработали, тестируем. Результат очень смешной был, ищешь что-то на одну тему, а получаешь очень точный результат, но на другую. Не случайный, потому что всё воспроизоводилось. Оказалось, что всё дело был в разной сортировке: баш сложил файлы в лексикографическом порядке, хотя там были числа в названиях файлов.
Так что мем — это тру стори.