(например, для врачей для оценки двигательных заболеваний)

Эта исследовательская перспектива спонсировалась Entrepreneur First (EF), ведущим европейским фондом предварительных инвестиций для основателей глубоких технологий. Он реализует уникальную шестимесячную программу предпринимательства, помогая своим участникам создавать быстрорастущие технологические компании с нуля, обычно на основе предварительной идеи или команды.

EF привлекает активных исследователей к участию в программе, чтобы они могли максимально эффективно использовать свои исследования. Поэтому, если вы являетесь аспирантом или постдоком в технической области, особенно в области машинного обучения, искусственного интеллекта, Интернета вещей, носимых технологий, НЛП, биоинформатики, больших данных или подобных, подать заявку здесь, чтобы присоединиться к следующей когорте, или нажмите здесь. чтобы получить дополнительную информацию у Хлои, сотрудника отдела кадров EF!

Перспективы исследования, автор Адвайт Саркар
Компьютерная лаборатория
Кембриджский университет, Кембридж, Великобритания

Как я могу объяснить важность этого исследования широкой публике?

Вы когда-нибудь задумывались, последовательны ли врачи в своих суждениях? В некоторых случаях их действительно нет. Когда клиницистов попросили оценить видео пациентов с рассеянным склерозом (заболеванием, вызывающим нарушение движений) по числовой шкале от 0 (полностью здоровые) до 4 (тяжелые нарушения), клиницисты изо всех сил старались быть последовательными, часто давая одному и тому же пациенту разные баллы в разное время. и несогласие между собой. Эта трудность довольно распространена и не уникальна для врачей — людям часто приходится присваивать баллы сложным абстрактным понятиям, таким как «Насколько хорошим было музыкальное исполнение?» или «Насколько вы согласны или не согласны с этим утверждением?» Снова и снова исследования показывают, что люди принципиально непоследовательны в этом виде деятельности, независимо от условий или уровня знаний.

Область «машинного обучения», которая может помочь автоматизировать такую ​​оценку (например, автоматически ранжировать пациентов в соответствии с их инвалидностью), основана на методе, с помощью которого мы можем дать компьютеру набор примеров, для которых оценка известна, в надеюсь, что компьютер сможет использовать их, чтобы «научиться» присваивать баллы новым, невидимым примерам. Но если компьютер обучается на примерах, в которых баллы присваиваются непоследовательно, в результате компьютер учится присваивать непоследовательные, непригодные баллы новым, невидимым примерам.

Чтобы решить эту проблему, мы объединили понимание того, как люди работают с некоторыми математическими трюками. Фундаментальное понимание заключается в том, что людям легче и более последовательно давать суждения о предпочтениях (например, «это выше/ниже/равно этому?»), а не абсолютные оценочные суждения (например, «это 4 или 5?» ). Проблема в том, что даже если у вас есть всего 50 элементов для присвоения баллов, у вас уже есть 50 х 49 = 2450 способов соединить их вместе. Это увеличивается почти до 10 000 сравнений, когда у вас есть 100 товаров. Понятно, что это не масштабируется. Таким образом, мы масштабируем это, используя математическое понимание: а именно, если вы сравните А с В и В с С, вы можете с достаточно высокой точностью предположить, какова связь между А и С. Это «угадывание» делается с помощью компьютерный алгоритм под названием TrueSkill, который изначально был изобретен для ранжирования людей, играющих в многопользовательские игры, по их навыкам, чтобы их можно было лучше сопоставить с онлайн-оппонентами. Используя TrueSkill, мы можем значительно сократить количество необходимых сравнений, чтобы увеличение количества элементов больше не приводило к значительному увеличению сравнений. Это исследование расширило наше понимание того, как люди определяют количество сложных понятий, и представило новый метод, который уравновешивает сильные стороны людей и компьютеров, чтобы помочь людям эффективно и последовательно выставлять оценки по многим вопросам.

Почему это важно для исследователей в других областях, помимо компьютерного зрения?

Это исследование показывает новый способ быстро и последовательно заставить людей оценивать предметы по непрерывной шкале (например, «оценить счастье человека на этой картинке по шкале от 1 до 5»). Он работает за счет использования суждений о предпочтениях (например, «это выше/ниже/равно этому?») в отличие от суждений об абсолютной ценности (например, «это 4 или 5?») в сочетании с алгоритмической системой ранжирования, которая может уменьшить необходимость сравнивать каждый элемент с любым другим элементом. Первоначально это было мотивировано необходимостью иметь более качественные метки для систем машинного обучения, но может применяться в любой области, где людям трудно размещать элементы по шкале. В нашем исследовании мы показали, что клиницисты могут использовать наш метод для достижения гораздо большей согласованности, чем считалось возможным ранее, при оценке двигательных заболеваний.

Почему это важно для исследователей в той же области?

В этом исследовании описывается новый метод эффективного получения непрерывных меток с высокой согласованностью, которые можно использовать в качестве обучающих данных для систем машинного обучения, когда маркируемая концепция имеет нечеткие границы — распространенный сценарий в нескольких областях машинного обучения, таких как распознавание эмоций, автоматизированный спортивный коучинг и автоматизированная оценка заболеваний. Непротиворечивость меток улучшается за счет использования суждений о предпочтениях, то есть маркировщики сортируют обучающие данные в континууме, а не предоставляют суждения об абсолютных значениях. Эффективность повышается за счет использования сравнения в наборах (в отличие от попарного сравнения) и использования вероятностного вывода с помощью алгоритма TrueSkill для вывода взаимосвязи между данными, которые явно не сравнивались. Система была оценена в реальном клиническом исследовании клиницистов, оценивающих двигательную дегенерацию у пациентов с рассеянным склерозом (РС), и было показано, что она имеет беспрецедентный уровень согласованности, превышающий широко принятые клинические «золотые стандарты».

Оригинальная статья

Сравнение наборов: последовательные, масштабируемые, непрерывные метки для компьютерного зрения [препринт]
Адвайт Саркар, Сесили Моррисон, Джонас Ф. Дорн, Риши Беди, Саския Штайнхеймер, Жак Буаверт, Джессика Бургграафф, Маркус Д'Суза, Питер Кончидер, Сэмюэл Рота Було, Лоркан Уолш, Кристиан П. Камм, Йордан Зайков, Эбигейл Селлен, Сиан Э. Линдли
Присутствует на заседаниях 34-го Ежегодная конференция ACM по человеческому фактору в вычислительных системах (CHI 2016)

Благодарности

Эта работа является результатом сотрудничества между Microsoft Research Cambridge и Novartis Pharma AG. Оригинальный текст опубликован ACM и появится в материалах 34-й ежегодной конференции ACM по человеческому фактору в вычислительных системах (CHI 2016).

Первоначально опубликовано на blog.sparrho.com.