Телеграмм чат группы natural_language_processing страница 1263

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2837 membersпожаловаться на группу

2021 June 15

DD

David Dale in Natural Language Processing

А если говорить про взаимодействие с бизнес-аналитиками, то мне кажется более разумным не уговаривать их проводить тестирование (ибо спорить можно вечно, и спор будет в духе "моё слово против вашего"), а провести его на коленке самостоятельно, и дальше идти к аналитикам, имея в качестве аргументов уже результаты первого прогона.

источник

11:31пожаловаться #1

TM

Toemik Mnemonic in Natural Language Processing

AnimatedSticker.tgs

источник

11:54пожаловаться #2

RY

Ruslan515 Y in Natural Language Processing

всем привет. как можно векторизовать текст если он большой и не лезет в память? пока использую CountVectorizer. думал считать кусок файла, векторизовать, затем опять кусок и опять векторизовать, но это не работает.

источник

12:28пожаловаться #3

E

Elena in Natural Language Processing

насколько большой текст?

источник

12:28пожаловаться #4

RY

Ruslan515 Y in Natural Language Processing

корпус из 5М. один документ примерно из 110 токенов. 11Гб. у меня 16Г но все равно не лезет

источник

12:29пожаловаться #5

E

Elena in Natural Language Processing

и это все пойдет в train?

источник

12:30пожаловаться #6

E

Elena in Natural Language Processing

думаю, тут лучше использовать какие-то предобученные модели

источник

12:31пожаловаться #7

E

Elena in Natural Language Processing

может вам на таком большой корпусе обучить свой fasttext или word2vec?

источник

12:31пожаловаться #8

IG

Ilya Gusev in Natural Language Processing

Строить словарь на всей выборке, включая обучающую, валидационную и тестовую это априори так себе идея. Лучше отложить кусок, на нем посчитать словарь, а остальное уже спокойно лениво посчитать.

источник

12:37пожаловаться #9

RY

Ruslan515 Y in Natural Language Processing

мне бы для начала mvp построить и показать. затем уже можно смотреть в сторону DL (я в этом вопросе пока плаваю поэтому не приступал)

источник

12:38пожаловаться #10

DD

David Dale in Natural Language Processing

HashingVectorizer

источник

12:38пожаловаться #11

SМ

SancheZz Мов in Natural Language Processing

Спарс формат?)

источник

12:40пожаловаться #12

RY

Ruslan515 Y in Natural Language Processing

для валидации 30% должно хватить. еще 30% будут тестовыми. но в память лезет примерно 20% от всего объема, получается нужно отказаться от части данных

источник

12:40пожаловаться #13

RY

Ruslan515 Y in Natural Language Processing

как его получить)?

источник

12:40пожаловаться #14

IG

Ilya Gusev in Natural Language Processing

Вообще CountVectorizer'у по идее не нужны все тексты разом

источник

12:43пожаловаться #15

IG

Ilya Gusev in Natural Language Processing

Он только словарь должен хранить

источник

12:43пожаловаться #16

RY

Ruslan515 Y in Natural Language Processing

в итоге нужно писать свою функцию создания словаря) лень это делать)

источник

12:44пожаловаться #17

DD

David Dale in Natural Language Processing

Ну вот HashingVectorizer как раз без словаря работает

источник

12:45пожаловаться #18

ДС

Дмитрий Симаков... in Natural Language Processing

(я не прочитал описание этого метода хаха)

источник

12:48пожаловаться #19

ДС

Дмитрий Симаков... in Natural Language Processing

Да.

источник

12:48пожаловаться #20