Привет. Меня зовут Луис, я недавно защитил докторскую диссертацию по компьютерным наукам по специальности Обработка естественного языка. Мне нравится верить, что я rara avis, так как у меня образование в области филологии, литературы и изучения языков. Меня всегда привлекали технологии, и постепенно, шаг за шагом, мне удавалось выучить достаточно, чтобы найти нишу, в которой я оказался полезным в компьютерной лингвистике. В этих нескольких строках я хотел бы поделиться с вами, коллега-гуманист, тем, почему подумать о том, чтобы заняться обработкой естественного языка, - это очень хорошая идея.

Драма. Видите ли, в первые годы обучения в магистратуре по таким предметам, как программирование или машинное обучение, я был полностью убежден, что то, что я изучал, был бесполезен. Я не мог соревноваться со своими одноклассниками с инженерным образованием в том, насколько быстро они изучали логику каждого алгоритма, и я был в восторге от того, насколько невероятно быстро они завершат задания, особенно когда я все еще застревал на установке Python. С какой стати какой-либо исследователь в области НЛП хотел бы иметь меня в своей команде? Конечно, на тот момент получение работы в отрасли было научной фантастикой, поэтому я даже не подумал об этом.

Прославляйте язык, учитывайте его нюансы.

Как гуманист, вы и я знаем, что мы сдали экзамены, сначала выясняя факты, а затем размышляя и критически глядя на исторические или художественные события. Нас научили определять закономерности в человеческом обществе и культуре, смотреть на них с уникальной призмы и формулировать потенциальные интерпретации исторических фактов и произведений искусства. На самом деле это требует большого воображения, и мне кажется, что лучше всего это делается при сочетании врожденной чувствительности и упорного труда.

Поэтому, если вы согласны со мной в том, что язык - это душа человечества и что он воплощает в себе богатую историю культурных, художественных и этнографических следов, я приглашаю вас присоединиться к вычислительной лингвистике, потому что ни одна машина никогда не сможет сравниться с человеческим общением без кодируя нашу историю, культуру и мировые знания. И ох, как здесь можно помочь.

Как же тогда использовать весь потенциал гуманиста в области искусственного интеллекта и обработки естественного языка? Вот мой полностью субъективный, предвзятый и абсолютно ненаучный список советов, которые я бы дал себе раньше.

  • Приятного просмотра данных. Да, вам стоит посмотреть свои данные. Но вам также должно понравиться это делать, тратить время на одну аннотацию, если вы чувствуете, что что-то не так, возвращаться к руководствам, критически относиться к тому, что вы видите. Если вы присматриваете за своими данными, полученные модели будут вам благодарны.
  • Критически изучите текущие задачи НЛП. Под этим я просто подразумеваю: сходите к CFP на самые известные конференции, посмотрите на треки и посмотрите, какие проблемы обычно решаются. Прочтите и спросите себя, чего-то здесь не хватает? Будет ли полезно попытаться решить эту новую языковую проблему?
  • Посмотрите прошлые задачи SemEval. SemEval предоставляет большое количество наборов данных, тщательно аннотированных по широкому кругу языковых проблем. Кроме того, прочтите документы с описанием задачи и узнайте вкратце, как подход X работал с проблемой Y.
  • Интерпретируйте свои модели. Независимо от того, смотрите ли вы на верхние узлы в дереве решений или на функции с наибольшим объемом информации в любой линейной модели, или на векторы внимания в нейронных сетях, всегда бронируйте немного времени, чтобы исследовать поведение модели. . Попробуйте обмануть его, ваш опыт дает вам преимущество, используйте его, и вы и ваши коллеги будете лучше понимать, что модель изучает, а какие случаи проблематичны.
  • Пишите много. Возможность сообщить о научных открытиях не должна быть самой сложной задачей для человека, обученного пониманию человеческого общения с гуманистической точки зрения. Превратите домыслы в эмпиризм и подтвердите их надежной проверкой биографических данных. Практикуйтесь в составлении технических отчетов, документируйте код и участвуйте в обсуждениях с другими. Это окупится.
  • Отметьте свое прошлое. У вас, как у гуманиста, может быть кризис идентичности, и вы можете не знать, что вы из себя представляете. Но наверняка вы знаете, кем не являетесь. Вы можете сильно повлиять на разработку решения НЛП, используя то, что у вас получается лучше всего.
  • Сотрудничать, сотрудничать, сотрудничать. Не сомневайтесь, когда появится возможность сотрудничества. Специально для начинающих исследователей, обучение у других, выход из зоны комфорта и работа в областях, с которыми вы не знакомы, - отличный способ получить взаимное понимание проблем языковых технологий.
  • Задайте много вопросов. Вы знаете, что ваши технические навыки не самые лучшие. Все знают. Следовательно, никто не ожидает, что вы будете знать все детали математики или статистики в определенной реализации или решении. Не бойтесь задавать как можно больше вопросов. Лучшая интуиция приведет к лучшим идеям и более ярким беседам с вашими сверстниками.
  • Стремитесь к совершенству в методологии. Как гуманист, оценка - это та область, в которой вы определенно можете блеснуть. Научитесь составлять проект в рамках временной шкалы, придумывайте творческие способы оценки новых моделей и новых задач и в основном убедитесь, что ваш вклад солиден со всех возможных точек зрения.
  • Обучайте. Как обычно, лучший способ чему-то научиться - это объяснить это кому-то другому. А теперь представьте, что вам нужно сделать это для всего класса. А теперь представьте, что вам нужно сделать это с объектом, очень далеким от вашего комфорта. А теперь подумайте, как легко было бы написать статью по этой теме в конце курса.

Надеюсь, это поможет, и добро пожаловать в НЛП :)