Size: a a a

Natural Language Processing

2020 October 27

V

Vic in Natural Language Processing
Andrey Tatarinov
Закладывай бюджет в 3-5 раз больше, чем получается простым умножением, так как наверняка часть сольешь впустую, в рамках самообучения 🙂
Спасибо. Согласен про умножение) Меня интересует отбор людей, можно ли их заранее отобрать или прям это совсем рандом кто возьмется. А далее  вообще думал там разбивка на группы, конечно нельзя давать все диалоги группе из 10 человек, они устанут, надо взять 200 и по ним распределить, тогда субъективно качество лучше будет и они сильнее будут бояться накосячить и перехитрить меня
источник

YN

Yuriy Nazarov in Natural Language Processing
Vic
Спасибо. Согласен про умножение) Меня интересует отбор людей, можно ли их заранее отобрать или прям это совсем рандом кто возьмется. А далее  вообще думал там разбивка на группы, конечно нельзя давать все диалоги группе из 10 человек, они устанут, надо взять 200 и по ним распределить, тогда субъективно качество лучше будет и они сильнее будут бояться накосячить и перехитрить меня
Можно ещё 2 типа заданий делать: составление диалогов и их оценка.
источник

AT

Andrey Tatarinov in Natural Language Processing
Vic
Спасибо. Согласен про умножение) Меня интересует отбор людей, можно ли их заранее отобрать или прям это совсем рандом кто возьмется. А далее  вообще думал там разбивка на группы, конечно нельзя давать все диалоги группе из 10 человек, они устанут, надо взять 200 и по ним распределить, тогда субъективно качество лучше будет и они сильнее будут бояться накосячить и перехитрить меня
Есть фильтрация по некому глобальному скору Толоки. Если оставишь верхние 10%, то на задаче будет работать примерно 20-50 человек одномоментно.
источник

AT

Andrey Tatarinov in Natural Language Processing
Есть возможность создать свой навык и выставлять оценку исполнителю по навыку.

Типа делаешь тестовое задание, оцениваешь на его основании исполнителей, выставляешь им оценки.
источник

AT

Andrey Tatarinov in Natural Language Processing
За тестовое тоже, как правило, платишь.
источник

AT

Andrey Tatarinov in Natural Language Processing
Можно не платить при пост-приемке, если не принимаешь. Но исполнитель может оспорить.
источник

AT

Andrey Tatarinov in Natural Language Processing
Приемку лучше делать самому или штатным модератором. Проверку толоки толокой у нас не удавалось хорошо делать.
источник

Q

Qwerty in Natural Language Processing
Andrey Tatarinov
По ощущениям: на толоке народ готов делать задачи за ~$0.01, если они занимают единицы минут, 1-3.

Прикинь сколько времени займет написать диалог.

Но на Толоке надо очень внимательно относиться к контролю качества, есть прямо целые сегменты исполнителей, которые готовы скликать твой бюджет.

Для задачи класса "написать диалог" обязательно настраивать постприемку и выдавать/принимать задачи небольшими пачками, чтобы не получилось, что пул из 10000 заданий заполнен пустыми диалогами.

Агрессивно банить абьюзеров.

Сильно фильтровать по глобальному скору исполнителей.

В идеале сделать свой навык и отдельной подзадачей, на каком-то обучающем/тестовом сете отскорить исполнителей по качеству исполнения, назначить навык, потом работать только с ними.
Не надо так делать.
источник

Q

Qwerty in Natural Language Processing
Vic
Спасибо. Согласен про умножение) Меня интересует отбор людей, можно ли их заранее отобрать или прям это совсем рандом кто возьмется. А далее  вообще думал там разбивка на группы, конечно нельзя давать все диалоги группе из 10 человек, они устанут, надо взять 200 и по ним распределить, тогда субъективно качество лучше будет и они сильнее будут бояться накосячить и перехитрить меня
Там все элементарно.
Делаете на страницу несколько заданий (например 5, не знаю какие у вас задачи), 1 из 5 заданий - контрольное (с вашим ответом, простое самое).
Если в нем ошибка, значит перед вами бот. Автоматически настраиваем бан таких. Все кто ошибся хотя бы 1 раз сразу вылетают с проекта. Значит они не больше одной страницы сделают.
+ все что с ошибкой важно отправить опять в работу автоматически. Там есть такая опция.

Можно еще попробовать перекрытие например 2/3, но я от него отказался.  И по рейтингу выбирайте топ10 сперва. А за 1 цент можете хоть 100 заданий выставить на страницу. Если не будут делать - уменьшать пока не начнут.

Приемку везде автоматическую ставить если чо!
источник

V

Vic in Natural Language Processing
Qwerty
Там все элементарно.
Делаете на страницу несколько заданий (например 5, не знаю какие у вас задачи), 1 из 5 заданий - контрольное (с вашим ответом, простое самое).
Если в нем ошибка, значит перед вами бот. Автоматически настраиваем бан таких. Все кто ошибся хотя бы 1 раз сразу вылетают с проекта. Значит они не больше одной страницы сделают.
+ все что с ошибкой важно отправить опять в работу автоматически. Там есть такая опция.

Можно еще попробовать перекрытие например 2/3, но я от него отказался.  И по рейтингу выбирайте топ10 сперва. А за 1 цент можете хоть 100 заданий выставить на страницу. Если не будут делать - уменьшать пока не начнут.

Приемку везде автоматическую ставить если чо!
спасибо, поизучаю
источник

AT

Andrey Tatarinov in Natural Language Processing
Qwerty
Не надо так делать.
Так - это как?
источник

AT

Andrey Tatarinov in Natural Language Processing
По нашему опыту на любых нетривиальных заданиях, если банить за первую ошибку, то не остается никого, вообще.
источник
2020 October 28

SP

Sebastian Pereira in Natural Language Processing
Отказались от Толокои в пользу студентов местного геофака - полетом довольны
источник

SP

Sebastian Pereira in Natural Language Processing
Бюджет тот же, результат лучше, деньги после работы.
источник

SP

Sebastian Pereira in Natural Language Processing
Текст размечают замечательно.
источник

AW

Alex Wortega in Natural Language Processing
источник

A

Ajay in Natural Language Processing
I'm using sutime library inside the map function on an RDD in pyspark but it is giving me some weird error and I've wasted a lot of time searching on this. Can anyone help me over this?
источник

A

Ajay in Natural Language Processing
an issue has been raised here
источник

A

Ajay in Natural Language Processing
источник

A

Ajay in Natural Language Processing
I think the developers of sutime are already in this group, if I'm not wrong. Hope to hear from them.
источник