На этой неделе мы наткнулись на сообщение в блоге Эрнана Корреа, в котором он поделился мыслями и передовыми методами использования Amazon Mechanical Turk (MTurk) для сбора данных обучения, необходимых для разработки моделей машинного обучения.

В этом сообщении в блоге Эрнан делится некоторыми мыслями и передовыми практиками, которые почти любой запрашивающий сочтет ценными. Вот несколько отрывков о том, как разрабатывать отличные задачи, а также как просматривать и утверждать материалы, полученные от клиентов Worker:

О дизайне задач

  • «Задачи должны быть как можно более простыми, чтобы каждый работник понимал, о чем идет речь».
  • «… включите как минимум три примера HIT, которые уже были отнесены к категории. Возможно, вам будет полезно выделить в примерах релевантную информацию, чтобы работники могли легче выполнить задачу ».
  • «Самый важный компонент каждого HIT - это его инструкции. Чем более понятны инструкции, тем точнее вы получите данные ».

О рассмотрении и утверждении работы

  • «Если вы планируете оценивать результаты ваших HIT вручную (что, по нашему мнению, может быть хорошей практикой), вы должны прояснить это [работникам MTurk], чтобы они знали, чего ожидать. Таким образом, если туркерам не понравится метод оценки, который вы будете использовать, они смогут решить не работать над вашими задачами ».
  • «Несколько слов об этике: если вы отказываетесь от работы, что не является хорошей идеей, не используйте эти данные в своих проектах. Использование данных из отклоненных работ может быть очень вредным как для вас, так и для туркеров, и, конечно же, неэтично ».
  • «… [Работники MTurk], чьи HIT были отклонены и, следовательно, не получают зарплату, вероятно, расстроятся, даже если вы предоставили им информацию о критериях оценки для ответов на ваши HIT. Это, вероятно, приведет к тому, что они будут публиковать негативные комментарии о вас и ваших HIT на форумах »

Вы можете просмотреть всю публикацию в блоге здесь: https://monkeylearn.com/blog/mechanical-turk-101-use-mturk-tagging-training-data/