Size: a a a

Natural Language Processing

2021 June 15

DD

David Dale in Natural Language Processing
А если говорить про взаимодействие с бизнес-аналитиками, то мне кажется более разумным не уговаривать их проводить тестирование (ибо спорить можно вечно, и спор будет в духе "моё слово против вашего"), а провести его на коленке самостоятельно, и дальше идти к аналитикам, имея в качестве аргументов уже результаты первого прогона.
источник

TM

Toemik Mnemonic in Natural Language Processing
источник

RY

Ruslan515 Y in Natural Language Processing
всем привет. как можно векторизовать текст если он большой и не лезет в память? пока использую CountVectorizer. думал считать кусок файла, векторизовать, затем опять кусок и опять векторизовать, но это не работает.
источник

E

Elena in Natural Language Processing
насколько большой текст?
источник

RY

Ruslan515 Y in Natural Language Processing
корпус из 5М. один документ примерно из 110 токенов. 11Гб. у меня 16Г но все равно не лезет
источник

E

Elena in Natural Language Processing
и это все пойдет в train?
источник

E

Elena in Natural Language Processing
думаю, тут лучше использовать какие-то предобученные модели
источник

E

Elena in Natural Language Processing
может вам на таком большой корпусе обучить свой fasttext или word2vec?
источник

IG

Ilya Gusev in Natural Language Processing
Строить словарь на всей выборке, включая обучающую, валидационную и тестовую это априори так себе идея. Лучше отложить кусок, на нем посчитать словарь, а остальное уже спокойно лениво посчитать.
источник

RY

Ruslan515 Y in Natural Language Processing
мне бы для начала mvp построить и показать. затем уже можно смотреть в сторону DL (я в этом вопросе пока плаваю поэтому не приступал)
источник

DD

David Dale in Natural Language Processing
HashingVectorizer
источник

SancheZz Мов in Natural Language Processing
Спарс формат?)
источник

RY

Ruslan515 Y in Natural Language Processing
для валидации 30% должно хватить. еще 30% будут тестовыми. но в память лезет примерно 20% от всего объема, получается нужно отказаться от части данных
источник

RY

Ruslan515 Y in Natural Language Processing
как его получить)?
источник

IG

Ilya Gusev in Natural Language Processing
Вообще CountVectorizer'у по идее не нужны все тексты разом
источник

IG

Ilya Gusev in Natural Language Processing
Он только словарь должен хранить
источник

RY

Ruslan515 Y in Natural Language Processing
в итоге нужно писать свою функцию создания словаря) лень это делать)
источник

DD

David Dale in Natural Language Processing
Ну вот HashingVectorizer как раз без словаря работает
источник

ДС

Дмитрий Симаков... in Natural Language Processing
(я не прочитал описание этого метода хаха)
источник

ДС

Дмитрий Симаков... in Natural Language Processing
Да.
источник