Интервью по педагогике НЛП: Дэн Джурафски (Стэнфорд)

(Это интервью является частью серии интервью о педагогике НЛП)

Первое интервью в нашей серии - с Дэном Джурафски, профессором лингвистики и компьютерных наук Стэнфордского университета, чьи исследования находятся на стыке НЛП, лингвистики и социальных наук. Дэн стал подходящей отправной точкой для этой серии блогов, потому что путешествие Люси в НЛП началось, когда она была второкурсницей в его классе CS 124 / LING 180: от языков к информации. Этот курс действует как вход в набор классов высшего уровня: CS 224N (НЛП с глубоким обучением), 224W (социальные сети), 224U (понимание естественного языка), 276 (поиск информации) , 224S (обработка речи и диалогов) и 246 (интеллектуальный анализ данных). В настоящее время это перевернутый класс, где некоторые лекции смотрят вне уроков, а время в классе посвящено занятиям. Согласно архивам Stanford Bulletin, Дэн преподает вводный курс НЛП в Стэнфорде с 2004–2005 учебного года. Он также известен как соавтор популярного учебника Обработка речи и языка с Джеймсом Х. Мартином, который находится в стадии разработки третьего издания.

В: Мы начнем с разговора о вашем классе второго курса, CS 124: От языков к информации. Почему вы выбрали перевернутый класс для своего класса и почему?

Дэн: Сначала меня убедили Дафна Коллер, а затем Эндрю Нг, а затем я начал читать учебную литературу, особенно результаты физиков, в том, что это просто лучший способ преподавать. Отчасти из-за того, что они убедили меня, что я должен это сделать, отчасти из-за лени и легкости. Крис Мэннинг и я провели МООК по НЛП, и когда у нас были эти лекции, стало очевидно, что мы могли бы просто использовать некоторые из них для CS 124, но мы также использовали CS 124 для пилотирования некоторых лекций МООК.

В: Как OpenCourseWare изменил ваш подход к обучению? Как вы думаете, окажет ли размещение ваших материалов в Интернете какое-либо влияние на будущих студентов в долгосрочной перспективе?

Дэн: В настоящее время я читаю 8 из 20 лекций в прямом эфире, а остальные онлайн на EdX, а затем я использую оставшееся время в классе для групповых упражнений и лабораторных работ, предназначенных для добавления концептуальных понимание.

Я вижу два больших преимущества. Во-первых, перевернутый класс заставляет меня думать о каждой теме в виде 8-минутных фрагментов с четкой целью обучения. Это действительно помогает структурировать то, что я хочу, чтобы студенты вынесли. Во-вторых, это заставило меня серьезно задуматься об активном обучении в классе: какие концептуальные вещи им нужно знать, и как я могу заставить их мыслить концептуально в классе в группах, что затем заставит их учиться. эти вещи. Перевернутый класс таким образом - это хорошо.

Минус в том, что, поскольку подготовка, запись и редактирование одной записанной лекции занимает 20–30 часов, проще просто оставить старый материал в курсе и просто сказать студентам: «О, пока проигнорируйте последний фрагмент этого видео. , »Что, вероятно, плохо. 8 лекций, которые я читаю вживую, являются материалом, который либо совершенно новый, либо сильно изменился за эти годы, и эти 8 лекций обновляются чаще всего каждый год.

В этом году я работаю над изменением дизайна двух живых лекций и заменой одной из записанных лекций, чтобы получить глубокое обучение и встраивать их раньше в нашу учебную программу.

Безусловно, наличие лекций в Интернете оказало большое влияние, я все время получаю почту от студентов, которые находили лекции в Интернете и учились у них.

В. Вы используете учебник в качестве основы для своего класса, но в учебнике освещено больше тем, чем вы можете охватить за десять недель, так как вы выбираете, какие темы освещать?

О: Наш класс - это не просто класс НЛП из-за нашей странной организации в Стэнфорде. Это введение в классы магистратуры, которые охватывают НЛП, но также действует как введение в класс социальных сетей, в IR, в системы рекомендаций. У каждой из этих тем есть свой учебник, и прямо сейчас я использую свой учебник для частей НЛП и опираюсь на другие учебники для других частей.

Первоначальная идея Криса Мэннинга - создать свой курс, чтобы привлечь людей как к Стэнфордскому треку информации / науки о данных, так и к Стэнфордскому треку AI / NLP. Я думаю, что это была действительно успешная, интересная идея, но она немного специфична для Стэнфорда. . Если бы я просто создавал класс НЛП для начинающих, я бы не занимался совместной фильтрацией, я мог бы не заниматься всеми IR и, конечно же, не занимался бы социальными сетями. Я мог видеть, что текущая установка применима в других местах (например, в школе информатики), или у вас могут быть отдельные классы для каждой темы.

В: Включаете ли вы свои собственные исследования в то, что выбираете преподавать?

Дэн: В последнее время совсем немного. Кроме того, я пытаюсь прочитать одну лекцию о НЛП на благо общества, а затем обычно прошу своих постдоков и студентов представить там свои работы. Большим исключением является то, что у меня, очевидно, есть особые вкусы в изложении, что связано с написанием учебников, поэтому я, безусловно, использую главы из учебников. Моя точка зрения из учебника определенно проявляется в классе, но мои исследовательские работы редко встречаются, потому что это класс старшеклассников.

В: Курс глубокого обучения НЛП в Стэнфорде, 224D, и курс НЛП для выпускников, 224N, объединились за последние два года. Повлияло ли это на ваши планы на 124?

Дэн: В общем, область изменилась, поэтому курс НЛП должен иметь глубокое обучение! В Стэнфорде в настоящее время нет общего курса по ИИ для студентов, вместо этого у нас есть 3 отдельных курса: зрение, язык и робототехника, и сейчас студенты не получают глубокого обучения до аспирантуры, что просто безумие.

Но также я очень хочу, чтобы курс был доступен моей целевой аудитории: второкурсникам и юниорам. Итак, я работаю над восстановлением курса. Этим летом я работаю над написанием глав учебника по глубокому обучению, так что осенью и зимой я могу писать лекции по глубокому обучению cs124, основанные на главах. Текущий план состоит в том, чтобы попытаться сделать этой следующей зимой и добавить 3 лекции по глубокому обучению плюс лекцию по встраиванию, а затем заменить домашнее задание по проверке орфографии логистической регрессией и домашнее задание по контролю качества версией глубокого обучения, вероятно, просто сетями с прямой связью и сохранить повторяющиеся сети для курса град,

Сложность заключалась в том, что у нас нет графических процессоров для всех студентов, и я не хочу ежегодно выпрашивать у компаний графические процессоры. Кроме того, я не хочу, чтобы студенты тратили целую четверть на настройку гиперпараметров; это больше подходит для магистратуры по машинному обучению. Я хочу, чтобы они понимали интуицию классификаторов в глубоком обучении, чтобы они составляли домашнее задание, которое было бы выполнимым и увлекательным, и, надеюсь, в котором глубокое обучение на самом деле лучше, чем логистическая регрессия. Оказывается, если вы не можете использовать графические процессоры, логистическая регрессия лучше, чем большинство вещей, связанных с глубоким обучением. Домашнее задание должно быть таким, к чему они не должны идти: «Эй, почему глубокое обучение работает хуже, чем регресс? Почему бы вам не дать нам больше графических процессоров, чтобы мы могли работать лучше? »

Во всяком случае, посмотрим, как это пойдет в ближайшие полгода!

В: Есть ли какие-либо существенные различия между тем, чему вы хотите учить, и тем, что хотят изучать студенты?

Дэн: Пока что нет, я думаю, что основная текущая проблема заключается в том, что глубокое обучение должно быть включено в курс. Может быть, в идеальном мире я бы успел прочитать новые главы и лекции к прошлогоднему курсу!

В: Помимо ваших текущих планов по внедрению глубокого обучения в существующий контент, если бы вы могли расширить класс, чтобы охватить дополнительную тему НЛП в CS 124, что бы это было?

Дэн: С бесконечным временем хотел бы добавить хотя бы некоторые из основных вещей НЛП: часть тегов речи, распознавание именованных сущностей, синтаксический анализ и машинное программирование. MT определенно самая интересная из этих четырех новых тем, хотя я не знаю, в каком порядке я бы их поместил. Всем нравится MT, потому что это весело, и вы можете смотреть на языки, так что если бы я мог сделать только одну из них я, наверное, занимаюсь МП. Если бы я мог сделать два, я бы сделал часть речевых тегов и идентификационных тегов, чтобы помочь понять некоторые основы слов и групп слов. Затем, если бы у меня было место, я бы добавил синтаксический анализ.

В: Просмотр множества учебных планов для классов НЛП, n-граммы и регулярные выражения - очень распространенный способ начать класс НЛП, включая ваш класс. Вы понимаете почему?

Дэн: Что ж, я подозреваю, что для людей было естественным сначала обучать регулярным выражениям, потому что это было первым делом в учебнике! И изначально мы поставили его на первое место, потому что это был естественный путь к конечным автоматам, а в те дни конечные автоматы были большой частью НЛП; в наши дни люди не учат их так часто, но я подозреваю, что они могут вернуться! И Крису Мэннингу, и мне нравятся инструменты Кена Черча для UNIX, и день, который мы проводим в классе с инструментами UNIX, такими как grep и регулярные выражения, был, возможно, самым практичным, что студенты могли извлечь из языка. Этот учебный день был невероятно полезен для их дальнейшей карьеры, поэтому регулярные выражения только что закрепились. Кроме того, факт в том, что диалоговые системы по-прежнему в основном представляют собой ELIZA, плюс слоты и заполнители, более регулярные выражения, так что это ценный отраслевой инструмент.

Мы тоже начали с N-граммов, потому что они представляют собой отличный простой способ научить студентов теории вероятностей, потому что они очень интуитивно понимают счет и деление, а также наивный байесовский метод. Таким образом, мы используем их, чтобы получить у людей абсолютно твердые вероятности, когда они их глубоко и интуитивно понимали, а затем вы можете сразу перейти к моделированию нейронного языка.

В: Считаете ли вы, что языковое моделирование по-прежнему важно для обучения, несмотря на то, что на данный момент у вас есть эти нейронные методы?

Дэн: Отличный вопрос! Я много думал об этом, потому что все исследования, включая наше собственное, сосредоточены на нейронных языковых моделях (LM), которые намного мощнее. Однако для многих задач n-граммовые LM все же лучше, чем нейронные LM. Нейронные LM намного лучше работают с тем же объемом данных, но очень медленно обучать огромные нейронные LM, в то время как вы можете выучить огромные старомодные n-граммы. Так что огромные старомодные n-граммы в конечном итоге остаются тем, что люди до сих пор используют в больших системах. Это то, чему не учат в курсах машинного обучения (не связанных с НЛП), так что это своего рода особенность языка.

В итоге, теперь я думаю, что да, я бы все еще занимался языковым моделированием, но я бы не стал заниматься продвинутым сглаживанием, просто сделал бы тупой шаг назад и пропустил все Кнезера-Нея и Гуд-Тьюринга. Перестанут ли люди использовать N-граммовые LM через несколько лет, возможно, когда нейронный язык станет достаточно быстрым? Может быть. В таком случае эта глава может исчезнуть, и мне придется придумать, как изменить порядок вещей. Может быть, использовать наивный байесовский метод оценки вероятности, а затем сразу перейти к моделированию нейронного языка? Проблема в том, что даже для наивного Байеса для классификации текста биграммы по-прежнему являются действительно полезной функцией. Увидев языковые модели, учащиеся привыкли думать о биграммах и триграммах, поэтому языковое моделирование учит их идее блоков из двух и трех слов. Думаю, ответ таков: я сделаю его роль в учебной программе все короче и короче, но все равно сделаю это.

В: Когда вы делаете домашние задания, как вы решаете, сколько математики и программирования нужно задействовать?

Дэн: тесты - это математика, а домашние задания - программирование. В CS 124 есть еженедельная викторина с несколькими вариантами ответов. Тесты предназначены для концептуального понимания и уверенности, что вы работаете над математикой вручную. Домашние задания по программированию предназначены для того, чтобы вы знали, как создавать такие инструменты, как наивный байесовский метод и языковые модели; мы хотим, чтобы вы закрепили эти знания в своих руках о том, как вы их строите.

В: Как изменился ваш взгляд на разработку этого класса с тех пор, как вы начали?

Дэн: класс теперь намного больше. Когда я начинал, их было 20 человек, а сейчас - 350. Вначале это было немного больше НЛП и включало в себя те вещи, которые мы не использовали в выпускных классах Криса Мэннинга. В то время Крис преподавал синтаксический анализ, машинный перевод и извлечение информации, поэтому я делал все остальное. Я рассмотрел лексическую семантику, со-ссылку, дискурс и диалоги, и я попросил их создать чат-бота. Итак, все предметы, которые не входили в курс магистратуры, были в классе старшекурсников. Я немного упростил выполнение курсов для старшекурсников, и в нашей учебной программе была явно другая структура.

Однако затем я создал курс «Понимание естественного языка для выпускников», чтобы позаботиться о некотором недостающем содержании, а затем создал курс «Диалог» для выпускников. Это означало, что роль CS 124 изменилась, и теперь он служит введением во многие темы за пределами НЛП, поэтому нам все еще приходится говорить обо всем понемногу, но мы не хотим, чтобы какие-либо домашние задания точно совпадали с курсами для выпускников. Также бывает, что каждый раз, когда меняются курсы для выпускников, наши домашние задания страдают. Например, на трех курсах сейчас есть домашние задания по встраиванию, и здесь слишком много совпадений. Но встраивание занимает центральное место во всем, так что ничего страшного, если у вас нет одинаковых домашних заданий.

В: Как вы думаете, какую роль лингвистика должна играть на уроках НЛП?

Дэн: Я определенно пытаюсь добавить сюда немного лингвистики, отчасти потому, что очень часто в конце моего урока ученики говорят: «Я понятия не имел, что вы можете изучать язык систематически. »Или« Я не знал о поле или настроениях ». В итоге я получил много специальностей по лингвистике и множество специальностей по символическим системам, которые изначально собирались получить специализацию по CS и прошли несколько курсов по системам. CS 124 оказался первым курсом с человеческими вещами, который они когда-либо видели. Для студентов, изучающих искусственный интеллект, он по-прежнему остается наиболее ориентированным на человека из всех курсов Стэнфордской программы обучения искусственному интеллекту. В ходе курса моя роль определенно заключалась в том, чтобы увеличить количество курсов по гуманитарным и социальным наукам, которые студенты изучают после моего курса. По этой причине я, когда могу, изучаю лингвистику, особенно в последнее время социолингвистику. В те годы, когда у меня в классе есть машинный перевод, я также много занимаюсь типологией, языковыми вариациями и языковыми различиями в морфологии, потому что это имело значение для машинного перевода. Я пытаюсь заставить их думать о языке систематически.

В: Как вы думаете, в таком случае правильная взаимосвязь между курсом НЛП и курсом машинного обучения?

Дэн: это хороший вопрос, потому что они во многом пересекаются; во многих из этих тем мы используем машинное обучение как инструмент. Отчасти это просто личное решение, но оно также может измениться; Раньше я оставлял градиентный спуск в курсах машинного обучения, но сейчас я добавляю его в учебник и, вероятно, добавлю его в свой класс.

В общем, на моих курсах я не делаю никаких доказательств, и они не тратят много времени на создание алгоритмов машинного обучения с нуля (SVM, LSTM). В моем курсе это должны быть инструменты, поэтому у вас просто есть чтобы понять их, но вы не собираетесь строить все части вручную.

Частично это зависит от того, перехватит ли глубокое обучение все возможные алгоритмы НЛП, чтобы для всего был только один вид машинного обучения. Однако это кажется маловероятным. Это то, что мы думали, что произойдет в 1990-х, но тогда этого не произошло. Оказывается, у видения, языка и робототехники есть свои узкие ограничения и свои собственные предубеждения.

Дэвид: Что за машинное обучение в 90-е, как все думали, возьмет верх? SVM?

Дэн: О, в 1988 году это должна была быть кластеризация без учителя или неконтролируемое обучение. Все думали, что вы просто создадите языковую структуру без присмотра с помощью ЭМ. Все думали, что ЭМ возьмет верх в этой области, и были эти ранние статьи, предлагавшие ЭМ для изучения части речевого тегирования, а потом оказалось, что даже небольшой кусочек обучающих данных помог. Теперь мы знаем, что вы можете добиться большего успеха, чем использование ЭМ, полностью неконтролируемого, с огромными объемами данных, если бы у вас была всего лишь тысяча помеченных наблюдений или что-то подобное, которое вы могли бы обозначить через час или два. Все очень быстро переключилось на контролируемое машинное обучение, а затем все исследования были сосредоточены на архитектурах и функциях, но фактические алгоритмы машинного обучения были такими же, как стандартная регрессия или SVM, поэтому не было никаких исследований, чтобы научить, как построить SVM или CRF. Это были лишь некоторые их применения и способы их создания.

В: Многие распространенные техники НЛП теперь предварительно реализованы в пакетах, поэтому насколько студенты в конечном итоге понимают детали техник, которые они изучают в классе, если все для них уже построено?

Дэн: Это смесь. В этом классе до сих пор я требовал, чтобы студенты построили все, чтобы они не могли использовать библиотеки; так, например, они реализуют наивный байесовский метод с нуля и экспериментируют с ним, что дает им действительно интуитивное понимание байесовского мышления, априорных вероятностей, правдоподобия и т.д. перейти к более широкому использованию библиотеки, поскольку у вас нет времени за 10 недель, чтобы сделать домашние задания по основам машинного обучения всего.

В: Вы сейчас работаете над третьим изданием учебника. Как вы решаете, какие темы включать в каждое издание?

Дэн: Ну, отчасти мы всегда занимаемся тем, что ищем учебные планы всех, кто преподает книгу, и просто смотрим, какие главы им требуются. Вы можете очень быстро увидеть, что бросить. Мол, никто не учил иерархии Хомского из нашего учебника - буквально, я думаю, что одному человеку в мире потребовалась наша глава, посвященная иерархии Хомского, как часть курса НЛП. Так что мы бросили это. Вы можете сразу сказать, что люди используют, и все занимаются синтаксическим анализом, и все делали н-граммы в былые времена. Теперь очевидно, что все преподают глубокое обучение, поэтому они либо используют книгу Йоава Голдберга - что действительно здорово, - либо люди будут использовать некую комбинацию нашей книги и книги Йоава. Вот что подсказало нам, что нужно писать главы о нейронной сети. Однако, за что вынести, вы раньше спрашивали, нужно ли учить n-граммы. Пришло время избавиться от n-граммов? Я не уверен. В моем случае нет, но, может быть, я еще раз сокращу. Или, например, если все люди, занимающиеся НЛП, переходят на синтаксический анализ зависимостей, нужно ли нам по-прежнему проводить синтаксический анализ избирательных округов? Я все равно добавлю его, потому что люди могут выбрать одно вместо другого. Некоторые лаборатории выберут один подход, но, вероятно, нам действительно стоит провести опрос и посмотреть, какие главы третьего издания используются. Если окажется, что никто не учит устранению неоднозначности смысла слов или чему-то еще, тогда, возможно, это исчезнет.

В: Просто заглядывая в будущее, что будет включать четвертое издание, чего еще нет в третьей версии?

Дэн: не знаю; это отличный вопрос. Третье издание не будет до следующего года, и я все еще не могу определиться с текущими темами. Например, Джим прямо сейчас пишет главу о моделировании последовательностей, используя LSTM, но, конечно, изменится способ построения моделей последовательностей, возможно, Внимание - все, что вам нужно, или, может быть, окажется, что нам следовало использовать расширенные свертки или что-то в этом роде. еще. Поэтому я не уверен, что к следующему году самый простой, самый общий алгоритм не будет чем-то другим, модели последовательность-последовательность - это то, что со временем сильно изменилось, от HMM к MEMM, к CRF, к RNN…. Или, может быть, окажется, что действительно простые сети прямого распространения, которые просто проходят через вход или что-то еще, будут работать лучше, потому что кто-то может придумать какое-то упрощение, которое заставит это сделать.

В: НЛП меняется довольно быстро. Как убедиться, что вы готовите студентов к ближайшему будущему, а также через десять или двадцать лет?

Дэн: 20 лет нельзя, но можно попробовать. Вы пытаетесь научить студентов большим идеям, таким как наборы для обучения и наборы тестов, контролируемое машинное обучение, просмотр ваших данных и размышления о языке. Вы надеетесь, что эти вещи носят общий характер и будут там через десять лет, но вы понятия не имеете.

В: Что вы посоветуете тем, кто разрабатывает новый курс НЛП для выпускников?

Дэн: Очевидно, что современные выпускные курсы будут основаны на глубоком обучении. Но вам также необходимо решить, какие области НЛП вы действительно хотите охватить, это трудное решение. Вы освещаете диалог или кладете его в другой курс? Исторический диалог имел другую математику (POMDP в былые времена, глубокое обучение с подкреплением сейчас). Насколько вы занимаетесь семантикой? Собираетесь ли вы охватить как лексическую семантику (очень естественную сейчас при использовании встраивания), так и формальную семантику (очень распространенную сейчас при семантическом синтаксическом анализе). Также вы должны убедиться, что охватили важные области, даже если лучшие алгоритмы являются пре-нейронными, и на данный момент все еще важно убедиться, что учащиеся знают не-нейронные базовые уровни, такие как n-граммы и TF-IDF.

Приведенное выше интервью было отредактировано для ясности.

Интервью по педагогике НЛП: Дэн Джурафски (Стэнфорд)

Вопросы по теме