грустный комментарий про тему, я как раз на первой лекции сейчас и думаю, как все хорошо. То есть дальше будет непонятно и в качестве погружения в модерн НЛП - тяжеловато? Что же делать. Вернуться в 224
Ребята есть задача с поиском по категориям на русском языке, категорий всего около 600. Не подскажите куда сейчас моднее всего копать?
При таком количестве категорий ML нервно курит в стороне из-за практически нереальной возможности создать непротиворечивое представительное обучающее множество. Забыть про "модное". взять рубанок и описывать запросами. Опять-таки при большом количестве категорий большинство классов = простые запросы.
Друзья, а какие инструменты использует для NER разметки датасета для русского языка? Планирую стажеров посадить размечать, посмотрел Doccano / Label Studio / INCEpTION - что-то не лежит душа, все немного недоделано.
Друзья, а какие инструменты использует для NER разметки датасета для русского языка? Планирую стажеров посадить размечать, посмотрел Doccano / Label Studio / INCEpTION - что-то не лежит душа, все немного недоделано.
Друзья, а какие инструменты использует для NER разметки датасета для русского языка? Планирую стажеров посадить размечать, посмотрел Doccano / Label Studio / INCEpTION - что-то не лежит душа, все немного недоделано.
Друзья, а какие инструменты использует для NER разметки датасета для русского языка? Планирую стажеров посадить размечать, посмотрел Doccano / Label Studio / INCEpTION - что-то не лежит душа, все немного недоделано.
я юзал doccano, там API есть, можно прикрутить автоматизацию какую надо потом
я юзал doccano, там API есть, можно прикрутить автоматизацию какую надо потом
Да, я поставил, посмотрел - работает. Тут основной вопрос в обучении тех, кто сядет размечать. В платном Prodigy - такое ощущение, что ребенок разберется, с doccano очевидно, что он рассчитан не на стажеров, а на самих разработчиков.
Друзья, а какие инструменты использует для NER разметки датасета для русского языка? Планирую стажеров посадить размечать, посмотрел Doccano / Label Studio / INCEpTION - что-то не лежит душа, все немного недоделано.
Doccano - завели быстро, не понравилось на длинных документах, так очень приятно. Label Studio - кастомизируется более-менее, но посложнее .
Друзья, а какие инструменты использует для NER разметки датасета для русского языка? Планирую стажеров посадить размечать, посмотрел Doccano / Label Studio / INCEpTION - что-то не лежит душа, все немного недоделано.