А если говорить про взаимодействие с бизнес-аналитиками, то мне кажется более разумным не уговаривать их проводить тестирование (ибо спорить можно вечно, и спор будет в духе "моё слово против вашего"), а провести его на коленке самостоятельно, и дальше идти к аналитикам, имея в качестве аргументов уже результаты первого прогона.
всем привет. как можно векторизовать текст если он большой и не лезет в память? пока использую CountVectorizer. думал считать кусок файла, векторизовать, затем опять кусок и опять векторизовать, но это не работает.
Строить словарь на всей выборке, включая обучающую, валидационную и тестовую это априори так себе идея. Лучше отложить кусок, на нем посчитать словарь, а остальное уже спокойно лениво посчитать.