Согласно одному отчету, в 2016 году было объявлено 9400 МООК по сравнению с 6850 в прошлом году.

Выбрать подмножество курсов недостаточно. Чтобы максимально использовать имеющиеся возможности, нужно выбрать правильную последовательность курсов. А зачем останавливаться на уровне курсов? Иногда лучший способ понять понятие, упомянутое в одном курсе, — это проработать материал по предпосылке другого понятия, объясненного в другом курсе.

В оптимальной последовательности учебного материала более поздние разделы основываются на знаниях, полученных в более ранних разделах, таким образом, чтобы учитывать существующие знания и максимизировать отдачу от времени, затраченного на обучение.

Когда материал курса требует концептуальных знаний, которых у студента нет, опыт будет разочаровывающим. С другой стороны, материал, который едва расширяет существующие знания, может быть пустой тратой времени.

Вычисление правильной последовательности может быть непосильной задачей и, в некотором смысле, требует тех самых знаний, которые человек стремится приобрести. Знающий гид не всегда может быть доступен для адаптации учебной программы к интересам и потребностям человека.

Здесь на помощь приходит машинное обучение.

Чтобы рекомендовать согласованную последовательность материалов МООК, система машинного обучения должна уметь представлять зависимости между концепциями. Например, необходимо усвоить, что студенты-люди сначала должны обладать знаниями о градиентах, прежде чем они смогут перейти к материалам курса, посвященным обратному распространению ошибки.

Большинство, если не все, задачи машинного обучения можно сформулировать как задачи аппроксимации функций. Это не исключение. Что нужно нашему рекомендателю последовательности MOOC, так это доступ к функции f, которая для заданной пары двух понятий, a и b, возвращает значение который выражает степень, в которой понятие a является предпосылкой понятия b.

В простейшем случае это может быть функция, возвращающая значение от 0 до 1. В то время как оценка 0 указывает на то, что знание концепции a не имеет значения для понимания концепции b максимальное количество баллов, равное 1, означает, что b вообще невозможно понять без предварительного изучения a.

С помощью этой функции оценки можно создать иерархию зависимостей между понятиями. Для данного целевого понятия и информации о существующих знаниях учащегося этот тип иерархии можно использовать для поиска наименьшего количества отдельных видеороликов, обучающих предварительным понятиям, необходимым для понимания целевого понятия.

Пан и др. описать подход к изучению этой желательной функции. Исследователи разработали семь элегантных функций, чтобы отразить степень, в которой концепция а является предпосылкой для концепции б. Эти функции делятся на три группы: семантическая связанность, контекстные функции и структурные функции.

Первая характеристика представляет собой семантическое родство между двумя понятиями. Авторы используют word2vec для создания вложений слов и сущностей из корпуса Википедии. Любая последовательность слов, которая ссылается на другую статью, интерпретируется как сущность. Затем вложения используются для вычисления нормализованного косинусного расстояния между двумя понятиями. Чтобы найти векторное представление понятия, система сначала ищет объект с тем же именем, что и понятие. Если сущность, соответствующая понятию, не существует, вложение понятия получается путем суммирования векторов для отдельных слов в имени понятия.

Особенности 2–4 сосредоточены на контекстах, в которых появляются эти две концепции.

Вторая функция основана на том, что авторы называют эталонным весом видео. Количество раз, когда концепция a упоминается в видео, где упоминается b, делится на количество раз, когда концепция a упоминается во всех видео. Это обозначается как Vrw(a, b). Параметры можно инвертировать, чтобы получить Vrw(b, a). Разница между ними называется опорным расстоянием видеоVrd(a, b) =Vrw(b, a) - Vrw(a, b).

Рассмотрим понятия градиента и обратного распространения. Из-за междисциплинарной важности исчисления большинство упоминаний градиента происходит за пределами видео, в которых упоминается обратное распространение ошибки. Следовательно, Vrw("градиент", "обратное распространение") мало. Напротив, видеоролики, объясняющие обратное распространение, часто относятся к градиентам. Таким образом, Vrw("обратное распространение", "градиент") велико. Взяв оба факта вместе, это означает, что эталонное расстояние видео Vrd("градиент", "обратное распространение") велико.

Функция 3, называемая опорное расстояние предложения, работает так же, как вторая функция, но применяется на уровне предложения.

Функция 4 вводит набор M наиболее семантически связанных сущностей для каждого понятия на основе нормализованного косинусного расстояния от функции 1. Рассмотрим сущности, тесно связанные с концепцией градиента (концепция а). Только в нескольких статьях Википедии об этих сущностях упоминается обратное распространение (концепция b). В большинстве из них обсуждаются другие темы исчисления или использование градиентов вне контекста нейронных сетей. И наоборот, во многих статьях, семантически связанных с обратным распространением (например, в более конкретных статьях об обратном распространении во времени или структуре), градиенты упоминаются из-за центральной роли, которую они играют в оптимизации нейронных сетей.

Чтобы вычислить признак 4, авторы сначала вычисляют сумму оценок семантической связанности для подмножества объектов M, наиболее семантически связанных с понятием a, которые относятся к понятию . б. Затем они вычисляют сумму по всем объектам M. Ссылочный вес Википедии Wrw(a, b) – это первая сумма, деленная на вторую сумму. Аналогично признакам 2 и 3, мы можем поменять местами аргументы для вычисления Wrw(b, a). Функция 4, опорное расстояние из Википедии, определяется как Wrd(a, b) = Wrw(b, a) - Wrw(a, b).

Функции с 5 по 7 используют структурные закономерности в данных МООК.

В рамках курса продвинутые концепции более высокого уровня, как правило, вводятся позже, чем базовые концепции более низкого уровня. Вводные курсы по нейронным сетям, как правило, вводят градиенты в начале курса и обсуждают обратное распространение в последующих частях. Пятая функция использует этот факт через идею среднего расстояния позиции. Предположим, что концепт a появляется в первом, пятом и шестом видео. Средняя позиция в этом примере равна 4. Если средняя позиция понятия b равна 7, то расстояние между ними на уровне курса равно 7 - 3 = 4. Измеряется среднее расстояние позиции. путем сложения индивидуальных расстояний на уровне курса по всем курсам, в которых упоминаются оба понятия.

Функция 6, как и пятая функция, вычисляется на основе всех курсов, в которых обсуждаются обе интересующие концепции. Внешний цикл перебирает элементы в этом подмножестве для вычисления среднего балла уровня курса. Внутренний цикл перебирает все пары видео (i, j), удовлетворяющие следующим критериям: (1) видео i упоминает понятие a, (2) видео j упоминает понятие b и (3) видео i появляется перед видео j. Для каждой из этих пар авторы подсчитывают, сколько раз понятие a встречается в видео i минус количество раз, когда понятие b встречается в видео j. Предположим, что градиенты упоминаются в видеороликах 1 и 3, а обратное распространение упоминается в видеороликах 6 и 9. В этом случае для видеопар (1, 6), (3, 6) будет рассчитана разница частот членов. , (1, 9) и (3, 9). Среднее значение по отдельным баллам на уровне курса называется расстоянием дистрибутивной асимметрии.

Последней функции дается название расстояние уровня сложности. Он основан на понимании того, что основные понятия освещаются в большем количестве видеороликов и, по словам авторов, сохраняются дольше. Во-первых, процент видео, в которых упоминается понятие a, рассчитывается для всех курсов, в которых обсуждается понятие a. Среднее значение этих процентов представляет собой среднее покрытие видео,avc(a). Во-вторых, расстояние между индексом последнего упоминания и индексом первого упоминания вычисляется относительно длины курса. Среднее значение этих оценок на уровне курса представляет собой среднее время выживания, ast(a). Те же измерения проводятся для концепции b. Наконец, расстояние уровня сложности вычисляется как avc(a)*ast(a) - avc(b)*ast(b).

Чтобы оценить эффективность семи функций, исследователи создали первый набор данных для предварительных отношений в МООК. Материалы курса для 20 МООК Coursera были загружены с помощью инструмента coursera-dl. Затем список концепций курса был извлечен вручную из субтитров видео. Двадцать пять процентов всех возможных пар были выбраны случайным образом, а затем аннотированы тремя людьми. В общей сложности более 14 000 пар были отмечены одной из трех категорий: a является обязательным условием b, b является обязательным условием. a» или отношения без предварительных условий. Около четверти всех примеров попадают в одну из первых двух категорий.

В трех наборах курсов (структуры данных и алгоритмы, машинное обучение и исчисление) случайные леса превзошли другие классификаторы с точки зрения точности и отзыва. Авторы отмечают, что каждая из семи функций функционирует как независимый слабый классификатор, и утверждают, что повышающая модель, такая как случайные леса, более подходит, чем линейные модели. Оценки F1 для самых эффективных случайных лесов варьируются от 0,7 до 0,74.

Удаление любой из семи функций или любой из трех групп функций ухудшает производительность. Удаление расстояния между уровнями сложности снижает оценку F1 более чем на семь процентов. Исключение структурных особенностей приводит к падению производительности примерно на девять процентов.

Хотя я восхищаюсь элегантностью набора функций в Pan et al. бумаги, я буду следить за конкурирующими моделями, основанными на рекуррентных нейронных сетях, которые, несомненно, появятся в ближайшем будущем.

Я думаю, что машинное обучение может и, в конечном счете, поможет нам расширить наш кругозор более эффективно и результативно. Добыча предварительных отношений является важным шагом на пути к этой цели.

Спасибо за чтение! Если вам понравилась эта статья, нажмите Аплодисменты, подпишитесь на меня и зайдите на aisummary.com, чтобы получить больше информации об интересных приложениях для машинного обучения.