В Busuu Placement Test используется компьютеризированное адаптивное тестирование (как объяснялось в предыдущей статье), основанное на модели машинного обучения, известной как Item Response Theory (IRT). Наш улучшенный тест на размещение привел к улучшению пользовательского опыта и увеличению конверсии в наших приложениях.

В этой статье мы углубимся в некоторые глубокие проблемы измерения образования и психометрии с помощью скейтбординга (да, я с детьми), чтобы понять, как IRT помогает нам решить их.

(Обратите внимание, что с этого момента я буду использовать термин элемент как синоним вопроса, упражнения или задачи, следуя стандартному жаргону поле.)

Измерение сложности задачи

Одна из основных идей теории ответов на задания заключается в том, что сложность задания не эквивалентна его проценту успешности.

Предположим, вы хотите измерить, насколько сложным является элемент (вопрос, упражнение, задание). Как бы вы это сделали? Наиболее интуитивным ответом может быть использование его процента сдачи: если показатель сдачи для элемента А составляет 90 %, а для предмета Б — 80 %, то элемент А легче, чем элемент Б.

Но теперь рассмотрим пример. Предположим, вы оцениваете навыки катания на скейтборде. Посмотрите на этих двух парней, катающихся на своих скейтбордах.

В скейт-парке вы можете увидеть людей, подобных изображенному на верхнем рисунке, которые пытаются спрыгнуть вниз по лестнице и умудряются приземлиться, не падая в 80% случаев. А с абсолютным новичком вы можете увидеть, как он делает что-то вроде нижнего рисунка, просто пытаясь кататься по прямой на плоской поверхности, но, тем не менее, ему удается избежать падения только в 70% случаев.

Означает ли это, что кик-флипы (80% «проходной балл») легче, чем катание на ровной поверхности (70% «проходной балл»)? Конечно, нет! Очевидно, настоящая причина таких цифр в том, что кик-флипперы лучше катаются на скейтборде, а более слабые скейтбордисты фактически отказались от выполнения этой задачи. . Таким образом, разница в испытуемых вводит нас в заблуждение относительно природы тестовых заданий.

Приведенная ниже таблица является еще одной иллюстрацией этой проблемы. (Процент успешных ответов приведен просто для аргументации.) Обратите внимание, что «сложный вопрос» и «легкий вопрос» имеют одинаковый процент успешных ответов, в зависимости от того, кому вы его задаете.

Обходной путь 1: случайная выборка?

Другой способ сформулировать проблему, описанную выше, заключается в том, что у нас нет сбалансированной выборки пользователей, чтобы сделать справедливое измерение трудностей деятельности.

В принципе, если бы мы продолжали давать учащимся вопросы случайным образом, то со временем мы должны были бы в конечном итоге получить сбалансированную выборку учащихся, отвечающих на каждый вопрос.

Тем не менее, есть две проблемы, которые сразу вытекают из этого утверждения:

…если бы мы продолжали задавать учащимся вопросы наугад….

Это нарушило бы всю цель персонализации, которая заключается в подгонке выбора вопроса к человеку, т. е. вопросы, заданные каждому человеку, наверняка будут не случайными. С точки зрения скейтбординга такая случайность (отсутствие персонализации) означала бы, что все новички сразу же пытаются делать кик-флипы, а также утомляют элитных скейтбордистов большим количеством прямолинейного катания по ровной поверхности, как и абсолютных новичков.

со временем мы должны в конце концов получить сбалансированную выборку…

Было бы обидно ждать, пока у нас будет много данных, чтобы что-то с ними сделать. К счастью, IRT дает нам возможность максимально эффективно использовать наши данные с самого начала.

Обходной путь 2: стратифицированная выборка в нашем наборе данных?

Еще один вариант: почему бы нам просто не использовать подмножество наших данных, представляющих хороший срез пользователей? С этим тоже есть некоторые проблемы.

  1. Прежде всего, как мы сможем заранее определить уровень способностей разных пользователей? Вы не можете сказать, кто является начинающим или продвинутым скейтбордистом (/читателем/изучающим язык/изучающим математику и т. д. и т. д.), просто найдя их идентификатор в базе данных. Но это также означает, что трудно стратифицировать население.
  2. Во-вторых, на некоторые вопросы мы можем никогда не получить ответов от определенных слоев населения, т.к. очень простые вопросы вряд ли будут тем, что мы хотели бы задать продвинутым учащимся. Это то, о чем я говорил выше, говоря о абсолютных новичках, не практикующих кик-флипы.
  3. Наконец, стыдно не использовать все наши данные, и было бы неплохо использовать их, независимо от того, сколько у нас их или мало, или от кого мы их получили.

Выявление «неправильных» вопросов

Еще одна важная проблема, с которой нам помогает IRT, — это обнаружение «неверных» элементов — случаев, когда что-то не так с вопросом, и мы можем обнаружить это с помощью статистического анализа, который неявно предоставляет IRT.

Что бы вы сказали о вопросах со следующим распределением правильных ответов?

Пункт C выглядит наиболее разумным из трех. Как и ожидалось, продвинутые учащиеся получают значительно более высокий балл, чем новички.

Пункт А может показаться невозможным — как новичок может получить более высокий балл, чем продвинутый ученик? Тем не менее, это происходит. Наиболее вероятной причиной этого является то, что неправильный ответ помечен как правильный из-за человеческой ошибки (или ошибки в автогенерации контента, такой как «галлюцинация» LLM) при написании контента. В данном конкретном случае это может быть вопрос «Верно/Неверно», при этом новички склонны чаще выбирать неправильный вариант ответа, но получают отметку «правильный», в то время как 80% продвинутых учащихся выбирают правильный ответ, но им говорят, что они ошиблись.

Пункт Б тоже кажется весьма подозрительным — как может быть такая маленькая разница между новичками и продвинутыми учениками? Здесь есть две возможности. Во-первых, вопрос может непреднамеренно проверить что-то еще. Например, вопрос может в основном основываться на знании географии страны, в которой говорят на этом языке, но могут быть и новички, которые хорошо знают географию, и продвинутые учащиеся, которые этого не делают. Другой вариант заключается в том, что вопрос имеет неоднозначную формулировку, из-за чего некоторые учащиеся неверно истолковывают задачу.

Примером этого, который мы обнаружили, был вопрос с вопросом «сколько комнат в этой квартире?», но значение «комната» в этом контексте зависит от культуры, как «трехкомнатная квартира «В некоторых культурах это означает квартиру с тремя спальнями, в других — одну с тремя комнатами, исключая кухню и ванную, а в третьих — все комнаты, включая кухню и ванную.

К счастью, у IRT есть способы обработки случаев, подобных описанным выше пунктам A и B, как мы увидим.

Фундаментальная двойственность учебных материалов

Как вы можете видеть из вышеизложенного, причина, по которой IRT является полезным инструментом для изучения инженерного дела, основана на довольно глубоком, центральном вопросе любого учебного материала, который я называю Фундаментальная двойственность учебных материалов. потому что мне нравится казаться умным.

(Я буквально никогда не слышал названия этой идеи в литературе, поэтому я придумал его. Тем не менее инсайдеры, кажется, все время ссылаются на нее неявно.)

Проблема в том, что каждый раз, когда кто-то учится на учебных материалах, это, по сути, взаимодействие, что означает наличие двухпричинных причин для всего — это может быть что-то о материалах, или что-то о пользователе, или это может быть какая-то особенность взаимодействия пользователя и материалов. Любителям физики можно напомнить об особой природе квантовой физики, где наблюдатель фактически становится важным элементом самого эксперимента.

Если подумать, это на самом деле верно для всего в науке. Когда физик изучает свет, он изучает, как свет взаимодействует с различными видами материи. Даже видение света глазами — это своего рода взаимодействие материи в вашем глазу со светом. Причина, по которой он особенно актуален в этой ситуации, заключается в том, что обычно в науке мы можем контролировать наши переменные — мы следим за тем, чтобы варьировать только одну вещь за раз, чтобы изучить, как, например, длина волны света влияет на угол преломления; но в нашей ситуации у нас есть несколько переменных, которые меняются одновременно таким образом, что мы не можем контролировать, поэтому нам нужно придумать способ сделать выводы из этого потенциально запутанного беспорядка.

Другой способ думать об этом состоит в том, что по сути мы занимаемся психометрией, но наш контент — это наша «рулетка», которую мы используем для измерения скрытых психологических особенностей людей (например, языковых способностей). Проблема в том, что если вы не знаете, какой длины ваша измерительная лента или на ней нет маркировки? Это именно та проблема, с которой мы сталкиваемся при создании такого рода оценок — вам нужно «измерять» свою измерительную ленту в то же время, когда вы измеряете свою цель.

Поэтому, когда мы видим результат, когда пользователь пытается выполнить упражнение, существует так много причинных факторов, которые могут стоять за этой производительностью, и сложно понять, какие из них ответственны…

Возможности IRT — краткое введение

Теория ответов на вопросы (IRT) появилась в 1960-х годах как усовершенствование классической теории тестов (CTT). В то время как CTT сосредоточился на тесте и его свойствах, IRT сосредоточился на элементе (то есть вопросе, задаче или упражнении). В настоящее время это одна из наиболее развитых областей психометрии, о чем свидетельствует трехтомный справочник.

В следующем посте я подробнее расскажу о математике и процедурах обучения для моделей IRT для всех вас, специалистов по данным. Но здесь я ограничусь высокоуровневыми идеями, лежащими в основе IRT и ее полезности.

В IRT каждый элемент имеет четыре свойства:

  1. сложность — насколько сложно правильно ответить/выполнить это задание.
  2. различение — мера того, насколько хорошо элемент различает учащихся с разными уровнями способностей.
  3. коэффициент угадывания —вероятность того, что пользователь, не знающий ответа, угадает его правильно.
  4. коэффициент проскальзывания —вероятность того, что пользователь, знающий ответ, совершит ошибку или промахнется и ответит на вопрос неправильно.

Сложность

С этими четырьмя параметрами для каждого элемента создается собственный график, который называется кривой отклика элемента. Ось Y представляет вероятность правильного ответа на вопрос, а ось X представляет уровень способностей учащегося, пытающегося ответить на него.

Двигаясь слева направо на этом графике, вы видите, насколько вероятно, что человек ответит на вопрос правильно. Так, например. пользователь с оценкой способности…:

  • 1,0 будет иметь 50% шанс ответить на этот вопрос правильно;
  • 1,1 будет иметь шанс почти 70%;
  • 0,5 будет иметь шанс примерно 3%; и
  • из 2 будет иметь более 99% шансов сделать это правильно.

Обратите внимание, что это означает, что процент сдачи тестового вопроса на самом деле не определен, пока вы не знаете, кто отвечает на него. Это связано с тем, что скорость прохождения эквивалентна значениям y, но вы не знаете значение y, пока не передадите значение x (возможности пользователя).

Теперь взгляните на эти две кривые, каждая из которых представляет отдельный вопрос теста:

Пользователь с оценкой способности 1,5 будет иметь ~ 97% шанс правильно ответить на красный вопрос, но ~ 3% шанс правильно ответить на черный вопрос. Это означает, что черный элемент сложнее.

Теперь представьте, что у нас есть набор пользователей с уровнем способностей 2.0, отвечающих на черный вопрос, и набор пользователей с уровнем способностей 1.5, отвечающих на красный вопрос. Несмотря на то, что черный предмет сложнее, его успешность выше будет выше, потому что люди, отвечающие на вопрос, обладают более высокими способностями.

Таким образом, сила этого подхода заключается в том, что сложность и успешность были разделены на две разные вещи. Скорость прохождения эквивалентна оси Y этих кривых; но именно то, откуда вы должны считывать успешность, зависит от способностей учащегося (это ось X).

Дискриминация

Проверьте эти два супер странных упражнения.

Красный назад. Что? Что это вообще значит?

Если вы будете следить за значениями вероятности, то увидите, что по мере того, как пользователь становится выше в способностях, у него снижается вероятность правильного ответа на этот красный вопрос.

Что с черным? Несмотря на то, что это правильный путь, он растет так медленно. В этом упражнении скорость сдачи увеличивается лишь очень незначительно по мере увеличения способностей.

Теперь еще раз взглянем на нашу предыдущую таблицу:

Вы видите связь? Правильно, элемент А, «сломанный», представлен красной кривой; а элемент B, подозрительно выглядящий, — черная кривая.

IRT кодирует эту форму с помощью параметра различения, который является своего рода свойством наклона. Красный элемент имеет отрицательную дискриминацию, а черный элемент имеет очень низкую дискриминацию — что-то, что легко прочитать из данных после обучения модели IRT, чтобы сообщить вашей команде по контенту, чтобы помочь им выявлять и устранять такого рода проблемы. .

Угадывание и промах

Что, если ваши упражнения выглядят так?

Красный элемент не совсем достигает значения y, равного 1, а черный элемент начинается с 0,6, а не с 0. Что это значит?

Это означает, что даже пользователи с очень низким уровнем способностей все равно правильно получают черный предмет в 60% случаев. Это называется 50-процентной скоростью угадывания. С другой стороны, даже пользователи с очень высокими способностями правильно понимают красный предмет только в 90% случаев. Это называется 10-процентным коэффициентом проскальзывания.

Красный пункт понятен, потому что люди довольно часто проскальзывают мышью или не уделяют должного внимания при выполнении каких-либо действий в приложении. На самом деле это улучшение модели, если вы можете включить это.

Однако форма черного предмета странная. Вы можете ожидать 50% угадывания для вопроса «Верно/Неверно» или 33% угадывания для вопроса с несколькими вариантами ответов с двумя отвлекающими факторами, но 60% угадывания? Там явно происходит что-то подозрительное.

Так что это еще один способ, с помощью которого IRT может помочь нам понять природу контента, который мы написали, и то, как наши пользователи взаимодействуют с ним, и позволить нам принять меры для исправления любых упражнений, которые кажутся странными.

Итак, почему ИРТ?

Ключевым моментом является то, что IRT позволяет нам измерять свойства как учащегося, так и предмета даже с «несбалансированными» выборками (что почти всегда у нас есть). Вы можете узнать о своих учениках из своих материалов, а о своих материалах — от своих учеников.

Еще одно ключевое преимущество заключается в том, что IRT помогает вам определить и измерить, какие вопросы неэффективны, чтобы ваша команда по контенту могла вмешаться и внести изменения.

Это также позволяет нам подготовить адаптивные тесты — подробнее об этом в следующем посте.

В следующий раз…

Мы углубимся в некоторые технические детали и рассмотрим, как обучаются модели IRT. До тех пор!