Люди генерируют рог изобилия языкового содержания. Могут ли машины сделать его полезным для изучающих язык?

Создать качественный контент для изучения языка сложно. Duolingo, которая, возможно, является самым плодовитым создателем контента для изучения языков, говорит, что только создание качественной учебной программы с 2000 предложений может занять у команды до девяти месяцев. И это только для того, чтобы покрыть половину того, что они считают общеевропейским уровнем владения иностранным языком для уровня A1, что по сути означает «новичок». (1) В Verbal Earth при создании флагманского продукта Mandarin Travel мы обнаружили, что разработка контента является значительно более сложной задачей, чем разработка программных систем для доставки этого контента.

Почему так сложно создавать контент для изучения языка? Хороший курс должен обучать лексике и структурам предложений, которые учащемуся, скорее всего, понадобятся в первую очередь. Необходимо будет вводить словарный запас постепенно, как для повторного использования ранее введенного словарного запаса для закрепления изучения этого словаря, так и для предотвращения «когнитивной перегрузки» учащихся путем одновременного введения слишком большого количества незнакомой лексики. Разработчики курса должны представить сценарии, в которых учащийся будет использовать язык, и придумать предложения, которые дают учащемуся языковые микронавыки для использования в этих сценариях, все время надеясь, что они не упустят некоторые ключевые понятия.

«Хорошие языковые курсы дадут новичку понятную информацию, которую внешний мир предоставит очень неохотно». — Стивен Крашен

Программное обеспечение может помочь в этом сложном процессе. Он может дать обратную связь о том, как быстро учебный план вводит новую лексику и насколько хорошо она укрепляет ранее введенную лексику в соответствии с метрикой, основанной на интервальных повторениях, или другими критериями. В Verbal Earth все наши последовательности уроков постоянно оценивались по многим показателям во время разработки, что позволяло уточнять их перед запуском в производство. Duolingo использует инструменты, чтобы убедиться, что в уроке не используется слишком много словарного запаса и что он используется в достаточном количестве предложений. Эти инструменты могут улучшить продукт, но это все еще очень трудоемкий процесс для создателей контента.

Мне, как руководителю разработки учебной программы для Mandarn Travel, постоянно задавался вопрос: каждый день органично генерируется так много языкового контента, так почему бы нам не использовать его для изучения языков? Если разработчик учебной программы создает контент, чтобы помочь учащемуся развивать языковые навыки, полезные в ресторане, зачем ему придумывать сценарии, перечислять ключевую лексику и языковые модели и формировать связный курс из тысяч придуманных предложений, когда есть настоящие? клиенты взаимодействуют с персоналом ресторана миллионы раз в день, «производя» контент, который по определению идеально подходит для ресторана? И в Интернете есть терабайты, если не петабайты существующего письменного, аудио- и видеоконтента, охватывающего все мыслимые темы. Можно ли использовать это таким образом, чтобы сделать его полезным для изучающих язык?

Машинное курирование и рог изобилия контента

В принципе, сегодня в Интернете уже существует достаточно контента, чтобы предоставить весь контент, необходимый для изучающих большинство основных языков. Основная проблема заключается в том, что почти ни один из них не является понятным вводом для изучающих язык. Если машина собирается превратить эти терабайты данных в учебную программу, полезную для изучающего иностранный язык, ей нужно будет сначала ввести наиболее важный словарный запас и грамматику, а затем постепенно наращивать их с достаточным повторением предыдущего словарного запаса, подобно тому, как это делает человек. создатели учебных программ в настоящее время делают.

Один из подходов к машинному курированию языкового контента для использования в изучении языка — это проблема оптимизации. В принципе, машина может создать «оптимальную» учебную программу для широкой аудитории, основываясь на таких критериях, как приоритетный список словарного запаса, который необходимо охватить, желаемая степень интервального повторения и скорость введения нового словарного запаса. Для определенной языковой области, такой как путешествие на поезде или размещение в гостинице, в принципе легко составить список словарного запаса, расставленный по приоритетам, просто обработав расшифровки реальных разговоров в этих контекстах и ​​отметив частоту использования слов.

Вместо того, чтобы программное обеспечение предоставляло обратную связь создателям человеческого контента и создателям, изобретающим новые предложения, как это делается в настоящее время, программное обеспечение может выбирать подходящую последовательность предложений из своей обширной библиотеки контента. Машинный куратор может просмотреть миллиарды доступных ему предложений и выбрать «Я есть» в качестве первого предложения в учебной программе, потому что оно использует словарь с наивысшим приоритетом. Он может выбрать «Я в порядке» в качестве продолжения, так как он вводит одно новое слово, а также дает возможность попрактиковаться с предыдущим словарным запасом. Предложений-кандидатов изначально очень мало, но по мере того, как вводится сотня или более основных словарей, возможности для куратора открываются экспоненциально.

Таким образом, построение учебной программы становится задачей введения в идеале одного нового слова за раз при оптимальном повторном использовании словарного запаса, который уже был введен в учебную программу. Вместо создателя человеческого контента, придумывающего новые предложения, который зависит от пределов его творчества и предвзятого отношения к его личным воспоминаниям и слепым пятнам, спонтанный творческий язык тысяч людей используется для создания оптимального контента.

Имея на выбор миллиарды предложений, машинный куратор также сможет заставить студента работать с новыми предложениями, которые вообще не вводят никаких новых слов, а вместо этого служат для отработки существующего словарного запаса в новых контекстах. Это открывает возможность повторных уроков, которые представляют собой совершенно новое содержание, но ограничены словарным запасом, с которым учащийся уже знаком, что дает учащимся положительное вознаграждение за демонстрацию того, что они могут понимать слова в новых контекстах.

Работа куратора этой машины, несомненно, была бы чрезвычайно сложной вычислительной задачей, но с современными вычислительными ресурсами она не является непреодолимой. А с неуклонным развитием методов машинного обучения и других наук о данных возможности постоянно расширяются.

Захват практического языка

Одна большая проблема с большей частью контента в Интернете заключается в том, что он не очень подходит для начинающих изучать язык. Он одновременно очень «продвинутый», использует много специальной лексики и, как правило, не очень полезен в повседневной жизни. Новичку, изучающему язык, обычно необходимо изучить аспекты языка, которые позволяют ему хорошо действовать в обычных ситуациях, таких как передвижение, кормление, забота о бытовых потребностях и основные социальные взаимодействия. В Интернете опубликовано не так много контента, посвященного этим темам, поскольку они не представляют особого интереса для носителей языка. Разговоры с таксистами, билетными кассами и продавцами одежды могут быть очень полезным материалом для начинающих изучать язык, стремящихся приобрести практические языковые навыки, но в сети опубликовано не так много таких разговоров, за исключением, возможно, вымышленного контента, который кратко затрагивает эти вопросы. ситуации.

Однако есть еще один рог изобилия, который ждет своего часа: миллионы разговоров, которые происходят между обычными людьми в обычных ситуациях каждый день. В принципе, микрофоны можно разместить на кассах в продуктовых магазинах, на стойках отелей, на вокзалах и т.п., чтобы записывать эти «приземленные» разговоры. Преобразование речи в текст стало очень точным, а методы машинного обучения довольно хорошо различают разные голоса при наличии нескольких микрофонов (2). Записывая эти ежедневные разговоры и добавляя их в библиотеку материалов для изучения языка нашего машинного куратора, можно сделать доступным огромное количество материала, очень полезного для начинающих.

Очевидно, что необходимо учитывать конфиденциальность и даже юридические проблемы. Законы, касающиеся записи разговоров, различаются по всему миру, хотя обычно это допустимо, когда не предполагается конфиденциальность, что имеет место в большинстве практических повседневных ситуаций, упомянутых выше. Проблемы с конфиденциальностью можно практически устранить, записывая только стенограммы разговоров и воспроизводя их с помощью системы преобразования текста в речь, когда требуется звуковой обучающий контент. Идентификация имен и другой личной информации в стенограммах также может быть автоматически запутана («деидентификация») с помощью обученных моделей машинного обучения (3).

Другая проблема заключается в том, что некоторая спонтанная речь может не подходить для изучения языка. Письменная проза обычно состоит из хорошо построенных предложений, в то время как говорящие, как правило, останавливают предложения на середине, затем лучше выражают свою мысль или делают вопиющие ошибки, которые делают предложение грамматически неправильным, даже если оно все еще понятно слушателю. Эти разговоры полезны для практики аудирования в их исходной форме, но не подходят во многих ситуациях изучения языка. Люди могут легко решить, что уместно, и курировать этот материал «вручную», но возможно создание моделей машинного обучения для автоматического выполнения этой работы в массовом масштабе.

Verbal Earth экспериментирует с использованием записей реальных разговоров в своей учебной программе. Мы считаем, что это очень перспективная область исследований. Приложив некоторые усилия, огромное количество органически сгенерированных разговоров в реальном мире потенциально может быть собрано для целей изучения языка.

Обзор архитектуры индивидуальной системы курирования машин

Как найти «правильное предложение»

Одной из задач нашего куратора машин является поиск нужного предложения или фразы. При введении нового слова может не оказаться предложения, в котором не использовались бы другие новые слова, даже при наличии миллиардов предложений на выбор. Или нет хороших вариантов для укрепления предыдущего словарного запаса. Это менее проблематично для естественной спонтанной речи, которая часто представляет собой короткие неполные предложения. Однако письменная проза, как правило, состоит из длинных сложных предложений с несколькими предложениями, что усложняет ее полезность в учебной программе по изучению языка.

Возьмите последнее предложение последнего абзаца в качестве примера. Есть довольно много слов, которые важны в области изучения языка: «предложения», «пункты», «обучение», «учебный план» и т. д. Для тех, кто изучает английский язык в этой области, предложение может быть полезно в качестве практики для тех, кто уже знаком со всей этой лексикой, но для начинающего учащегося оно может перегрузить их незнакомой лексикой.

Однако это не делает предложение бесполезным для машинного куратора, чья цель — медленно вводить словарный запас. Длинные предложения всегда состоят из понятных кусков, которые не являются полностью сформированными «законченными» предложениями, но, тем не менее, передают значимые языковые единицы. Обычно они встречаются в предложениях, в словосочетаниях с существительными или в других грамматических структурах. Например, «учебная программа по изучению иностранных языков». Это именная группа, которая передает связную единицу значения. Эта фраза полезна куратору машин, когда учащийся знаком со словами «язык»и«обучение»,но не«учебный план». , так как это позволяет вводить новое слово в соответствующем контексте, когнитивно связывая его значение со словами, которые учащийся уже знает. Другими примерами понятных фрагментов из этого предложения являются "сложные предложения с несколькими предложениями" и"письменная проза, как правило, состоит из длинных сложных предложений".

Определив понятные фрагменты из миллиардов предложений в своей библиотеке, машинный куратор получает гораздо больше гибкости при составлении учебного плана. 10 миллиардов вариантов становятся 50 миллиардами вариантов, облегчая машинному куратору поиск «нужного предложения», которое вводит новое слово, оптимально укрепляя знакомый словарный запас, или новые предложения, которые используют существующий словарный запас по-новому.

Понятная часть — несколько расплывчатое понятие, но оказывается, что методы машинного обучения хороши для построения моделей, способных точно работать с нечеткими понятиями, поэтому эта задача по поиску понятных частей можно на машине. Анализ тональности, который пытается классифицировать тональность письменного продукта или другого обзора (например, «хороший», «нейтральный», «плохой»), является одним из старейших вариантов использования обработки естественного языка. По своей сути это расплывчатая концепция, но оказывается, что с современными моделями глубокого обучения машины могут достигать результатов, подобных людям.

В Verbal Earth мы изучаем полезность машинного обучения на основе модели обработки естественного языка Google BERT для выполнения этой задачи. Он принимает в качестве входных данных английское предложение и выводит набор полезных понятных фрагментов. В настоящее время точность модели составляет 92 %, что означает, что 92 % выходных данных считаются понятными для человека, а не непонятной тарабарщиной, такой как «время прошло место где». Мы ожидаем еще лучших результатов в будущем по мере развития наших исследований и моделей обработки естественного языка в целом.

Машина как личный репетитор

Наличие общего учебного плана, созданного куратором-машиной, было бы фантастическим достижением, но что, если бы мы могли пойти еще дальше и позволить машине курировать контент для изучения языка в соответствии с конкретными индивидуальными потребностями? Есть два основных различия между учащимися, которые отличают их как личности: цели обучения и текущие способности. Принимая во внимание текущие интересы учащегося и его текущие языковые навыки, можно на лету создать гораздо более персонализированный учебный план, превратив машинного куратора в личного репетитора.

Один учащийся может быть заинтересован в развитии языковых навыков, которые помогут ему путешествовать по чужой стране, в то время как другой может быть заинтересован в обсуждении приготовления пищи с другом на своем родном языке. Куратор машины, представляя новый контент первому учащемуся, может отдавать приоритет лексике, полезной в транспорте или покупках. Во-вторых, можно ввести лексику о различных ингредиентах и ​​кухонной утвари. Большинство изучающих язык обнаруживают, что в учебных планах есть разделы, предназначенные для широкой аудитории, которые их не интересуют, в то время как другие интересующие их разделы не отвечают их потребностям.

Если машинный куратор также знает, с каким словарным запасом учащийся уже знаком и в какой степени, он может предоставить очень полезную индивидуальную учебную программу, которая закрепляет уже известные слова, требующие практики, и знает, какие новые слова необходимо ввести, чтобы помочь учащемуся. достигать своих целей. Вместо того, чтобы выбирать контент из своей библиотеки на основе общей учебной программы для всех учащихся, он может выбирать конкретно для удовлетворения уникальных потребностей и интересов учащихся.

Если машинный куратор также знает, с каким словарным запасом учащийся уже знаком и в какой степени, он может предоставить очень полезную индивидуальную учебную программу, которая закрепляет уже известные слова, требующие практики, и знает, какие новые слова необходимо ввести, чтобы помочь учащемуся. достигать своих целей. Вместо того, чтобы выбирать контент из своей библиотеки на основе общей учебной программы для всех учащихся, он может выбирать конкретно для удовлетворения уникальных потребностей и интересов учащихся.

Duolingo в настоящее время обеспечивает некоторую индивидуализацию на своих уроках и практических занятиях, оценивая, как происходит обучение с текущим материалом. Более полные предложения и новая лексика могут быть введены быстрее, если обучение кажется легким, и материал, с которым учащийся сталкивается с трудностями, может быть повторен или предоставлены аналогичные примеры. (4) LingQ, у которого нет установленной учебной программы, рекомендует новый контент, оценивая, сколько учащийся уже знает.

Вероятно, самый простой способ для машинного куратора отслеживать языковые навыки учащегося — это отслеживать весь словарный запас, используемый в сгенерированном учебном плане до сих пор, и предоставлять учащимся возможность напрямую сообщать системе о знакомстве со словарным запасом. Знакомые слова могут получить более низкий приоритет, когда машинный куратор выбирает новые предложения, но время от времени они все равно получают приоритет, чтобы убедиться, что они остаются «свежими» в памяти учащихся. Машинный куратор может приложить усилия, чтобы найти больше примеров использования слова, с которым у учащегося возникают трудности, найдя предложения в роге изобилия, в которых используется это слово, а также использовать слова, с которыми учащийся удобен.

Вывод

Сделать качественный контент для изучения языка сложно. К счастью, качественный языковой контент постоянно генерируется из рога изобилия носителями языка и авторами языка каждый день. Использование машин для преобразования этого огромного количества контента в материал, подходящий для изучающих язык, не только для широкой аудитории, но и для удовлетворения конкретных потребностей отдельных учащихся, быстро становится возможным. Экспоненциальный рост вычислительных ресурсов и возможностей систем машинного обучения для выполнения повседневных задач, на которые раньше были способны только люди, — вот что сделает это возможным. Вместо того, чтобы полагаться на творческие усилия нескольких разработчиков учебных программ, миллионы носителей языка станут доступными для изучающих язык.