Как машинное обучение может привести к изучению отношений в данных.

Закрашивание — это метод взаимодействия, который позволяет пользователям выбирать и выделять определенные точки данных в визуализации, «закрашивая» их. Закрашивание стало очень широко использоваться в визуализации, позволяя пользователям быстро и эффективно исследовать отношения в данных. Каждый вариант чистки имеет свои компромиссы с точки зрения скорости и точности, и на данный момент вариант редко превосходит обе категории. Но что, если бы вариант быстрой чистки мог узнать предпочтения пользователя и более точно выбирать точки данных по мере его использования? Фан и Хаузер разработали эту технику, используя машинное обучение и нейронные сети.

В предыдущей статье Фан и Хаузер разработали новую технику обработки диаграмм рассеяния на основе сверточной нейронной сети (CNN), архитектуры глубокого обучения, вдохновленной организацией нейронов в зрительной коре, часто используемой для классификации изображений. Этот метод превзошел предыдущие методы быстрого рисования по точности. Однако оставалось еще место для совершенствования. Модель была основана на обучающих данных, ранее собранных от 50 разных пользователей. Он усреднил предпочтения разных пользователей, чтобы создать общую модель, которая, хотя и была эффективной, не была специфичной для каждого пользователя. Для пользователей, чьи предпочтения в чистке отличались от средних, техника была недостаточно точной. Теоретически модель можно было бы воссоздать для каждого пользователя в соответствии с его индивидуальными предпочтениями, но, учитывая большой объем требуемых данных для обучения, это был бы очень длительный процесс.

Решение Fan и Hauser для устранения этих ограничений заключается в создании итеративной модели чистки, оптимизированной для конкретного пользователя на основе предоставленных ими данных. Эта структура основана на Active Learning (AL), частично контролируемой форме машинного обучения, которая со временем улучшает модель, собирая дополнительные данные от пользователей. Поскольку каждый пользователь начинает с общей модели, он может воспользоваться уже рассчитанными параметрами чистки и сэкономить время. Новые данные, собранные от каждого пользователя, заменят только наиболее похожие данные, уже представленные в общей модели. Таким образом, модель будет адаптироваться к предпочтениям пользователя в отношении чистки, но останется общей, когда дело доходит до конкретных сценариев, с которыми пользователь еще не сталкивался. Повторное обучение итеративной модели займет всего 3 минуты, что делает ее гораздо более удобной, чем модель, построенная с нуля.

Исследователи провели исследование, чтобы сравнить точность этой новой итеративной модели с общей. Каждому отдельному пользователю в исследовании были представлены диаграммы рассеяния, основанные на 25 исходных наборах данных. Каждый раунд был разделен на две части. В первой части пользователи использовали щелчок и перетаскивание, чтобы очистить некоторые данные на диаграмме рассеивания. Во второй части пользователи просматривали результаты очистки с использованием текущей модели очистки. Затем пользователи решали, совпадают ли результаты с тем, что они намеревались выбрать. Если были какие-либо различия, пользователи корректировали их с помощью лассо, пока не были удовлетворены. Так продолжалось 5 раундов. В каждом раунде пользователи делали 5 выборок на 10 различных диаграммах рассеяния.

Исследователи рассчитывали точность итеративной модели в каждом раунде и сравнивали ее с точностью общей неитеративной модели из предыдущих исследований. Они представили эти результаты, используя диаграммы. Поскольку все пользователи начинают использовать общую модель в раунде 1, мы видим разницу в точности только между раундами 2 и 5. Средняя точность итеративной модели увеличилась больше, чем у общей модели, и поэтому она работает намного лучше. Квадраты в правой части диаграммы меньше, что показывает, что новая модель также была более стабильной, чем обычная.

В заключение исследователи улучшили точность и стабильность своей общей модели чистки зубов, собирая информацию от пользователей и адаптируя модель к предпочтениям пользователей. Затраты времени на переобучение итеративной модели составили всего 4% времени, необходимого для построения совершенно новой общей модели. В целом, результаты этой статьи очень многообещающие. Взаимодействие с визуализацией данных становится все более распространенным в нашей профессиональной и личной жизни. Предоставление пользователям возможности персонализировать эти взаимодействия с течением времени — отличный способ сделать их более эффективными и приятными. Исследователи надеются, что будущие исследования могут дать пользователям больше гибкости в настройке инструмента для чистки и вовлечении пользователей в процесс проектирования. Я лично с нетерпением жду будущих достижений в этой области.

Ссылки