Спасибо Хану за запись в блоге о его работе с Verbcorner!

Привет, ребята, меня зовут Хан. Я новый научный сотрудник в Л3, и я хотел бы рассказать вам о проекте, над которым я сейчас работаю.

Используя Verbcorner, онлайн-платформу для проведения лингвистических экспериментов, L3 накопила большой набор данных, содержащий более пятисот шестидесяти тысяч уникальных ответов на викторины. Каждый ответ сопровождается предложением, вопросом о предложении и ответом участника викторины.

Я добился прогресса в объединении этих ответов в единый набор данных, включающий как можно больше информации из VerbNet, онлайн-набора данных глаголов и связанных классов и фреймов. VerbNet использовался для генерации вопросов, заданных Verbcorner, и содержал информацию о контекстуальных классах и синтаксических фреймах, используемых для предложения Verbcorner.

Каждая запись в наборе данных теперь содержит больше информации:

Задачи машинного обучения можно разделить на две очень широкие категории: контролируемые и неконтролируемые.

Контролируемые модели получают набор данных с метками, сообщающими, что представляет собой каждая точка данных. Затем они учатся классифицировать эти точки данных по отдельным маркированным категориям, используя регрессию. По мере того, как он учится на все большем количестве примеров, он лучше обобщает новые точки данных, которые он никогда раньше не видел.

Активное обучение — это полуконтролируемая задача. Идея состоит в том, чтобы обучить глубокую нейронную сеть на существующем наборе данных Verbcorner. Сеть получает матрицу функций точек данных на своем первом уровне и набор меток, соответствующих каждой точке данных на последнем уровне. Он обрабатывает эти входные данные на каждом последующем уровне, пока не создаст прогнозный вектор.

Затем разница между прогнозами и метками используется для настройки весов и параметров во всей сети, и именно так она обучается. Если модель может научиться предсказывать ответы на данные Verbcorner с разумной точностью, ее можно использовать для активного обучения.

Глубокая сеть с большим количеством слоев и узлов может фиксировать более сложные шаблоны и обеспечивать более высокую точность, но трудно определить идеальное количество слоев и узлов.

Для активного обучения модели можно показывать новые вопросы, которых она никогда раньше не видела. Затем его ответ на вопрос можно сравнить с ответами участников викторины на предмет сходства. Чем более похожи ответы, тем лучше работает модель, и нейронная сеть может использовать сравнение для соответствующей настройки своих параметров.

Это позволит модели продолжать обучение по мере роста Verbcorner. Если его производительность сможет достичь достаточно высокого уровня точности, возможно, он даже сможет стать убедительной заменой участника викторины!