Товарищ гуманист, приходите и присоединяйтесь к нам в обработке естественного языка

Привет. Меня зовут Луис, я недавно защитил докторскую диссертацию по компьютерным наукам по специальности Обработка естественного языка. Мне нравится верить, что я rara avis, так как у меня образование в области филологии, литературы и изучения языков. Меня всегда привлекали технологии, и постепенно, шаг за шагом, мне удавалось выучить достаточно, чтобы найти нишу, в которой я оказался полезным в компьютерной лингвистике. В этих нескольких строках я хотел бы поделиться с вами, коллега-гуманист, тем, почему подумать о том, чтобы заняться обработкой естественного языка, - это очень хорошая идея.

Драма. Видите ли, в первые годы обучения в магистратуре по таким предметам, как программирование или машинное обучение, я был полностью убежден, что то, что я изучал, был бесполезен. Я не мог соревноваться со своими одноклассниками с инженерным образованием в том, насколько быстро они изучали логику каждого алгоритма, и я был в восторге от того, насколько невероятно быстро они завершат задания, особенно когда я все еще застревал на установке Python. С какой стати какой-либо исследователь в области НЛП хотел бы иметь меня в своей команде? Конечно, на тот момент получение работы в отрасли было научной фантастикой, поэтому я даже не подумал об этом.

Прославляйте язык, учитывайте его нюансы.

Как гуманист, вы и я знаем, что мы сдали экзамены, сначала выясняя факты, а затем размышляя и критически глядя на исторические или художественные события. Нас научили определять закономерности в человеческом обществе и культуре, смотреть на них с уникальной призмы и формулировать потенциальные интерпретации исторических фактов и произведений искусства. На самом деле это требует большого воображения, и мне кажется, что лучше всего это делается при сочетании врожденной чувствительности и упорного труда.

Поэтому, если вы согласны со мной в том, что язык - это душа человечества и что он воплощает в себе богатую историю культурных, художественных и этнографических следов, я приглашаю вас присоединиться к вычислительной лингвистике, потому что ни одна машина никогда не сможет сравниться с человеческим общением без кодируя нашу историю, культуру и мировые знания. И ох, как здесь можно помочь.

Как же тогда использовать весь потенциал гуманиста в области искусственного интеллекта и обработки естественного языка? Вот мой полностью субъективный, предвзятый и абсолютно ненаучный список советов, которые я бы дал себе раньше.

Приятного просмотра данных. Да, вам стоит посмотреть свои данные. Но вам также должно понравиться это делать, тратить время на одну аннотацию, если вы чувствуете, что что-то не так, возвращаться к руководствам, критически относиться к тому, что вы видите. Если вы присматриваете за своими данными, полученные модели будут вам благодарны.
Критически изучите текущие задачи НЛП. Под этим я просто подразумеваю: сходите к CFP на самые известные конференции, посмотрите на треки и посмотрите, какие проблемы обычно решаются. Прочтите и спросите себя, чего-то здесь не хватает? Будет ли полезно попытаться решить эту новую языковую проблему?
Посмотрите прошлые задачи SemEval. SemEval предоставляет большое количество наборов данных, тщательно аннотированных по широкому кругу языковых проблем. Кроме того, прочтите документы с описанием задачи и узнайте вкратце, как подход X работал с проблемой Y.
Интерпретируйте свои модели. Независимо от того, смотрите ли вы на верхние узлы в дереве решений или на функции с наибольшим объемом информации в любой линейной модели, или на векторы внимания в нейронных сетях, всегда бронируйте немного времени, чтобы исследовать поведение модели. . Попробуйте обмануть его, ваш опыт дает вам преимущество, используйте его, и вы и ваши коллеги будете лучше понимать, что модель изучает, а какие случаи проблематичны.
Пишите много. Возможность сообщить о научных открытиях не должна быть самой сложной задачей для человека, обученного пониманию человеческого общения с гуманистической точки зрения. Превратите домыслы в эмпиризм и подтвердите их надежной проверкой биографических данных. Практикуйтесь в составлении технических отчетов, документируйте код и участвуйте в обсуждениях с другими. Это окупится.
Отметьте свое прошлое. У вас, как у гуманиста, может быть кризис идентичности, и вы можете не знать, что вы из себя представляете. Но наверняка вы знаете, кем не являетесь. Вы можете сильно повлиять на разработку решения НЛП, используя то, что у вас получается лучше всего.
Сотрудничать, сотрудничать, сотрудничать. Не сомневайтесь, когда появится возможность сотрудничества. Специально для начинающих исследователей, обучение у других, выход из зоны комфорта и работа в областях, с которыми вы не знакомы, - отличный способ получить взаимное понимание проблем языковых технологий.
Задайте много вопросов. Вы знаете, что ваши технические навыки не самые лучшие. Все знают. Следовательно, никто не ожидает, что вы будете знать все детали математики или статистики в определенной реализации или решении. Не бойтесь задавать как можно больше вопросов. Лучшая интуиция приведет к лучшим идеям и более ярким беседам с вашими сверстниками.
Стремитесь к совершенству в методологии. Как гуманист, оценка - это та область, в которой вы определенно можете блеснуть. Научитесь составлять проект в рамках временной шкалы, придумывайте творческие способы оценки новых моделей и новых задач и в основном убедитесь, что ваш вклад солиден со всех возможных точек зрения.
Обучайте. Как обычно, лучший способ чему-то научиться - это объяснить это кому-то другому. А теперь представьте, что вам нужно сделать это для всего класса. А теперь представьте, что вам нужно сделать это с объектом, очень далеким от вашего комфорта. А теперь подумайте, как легко было бы написать статью по этой теме в конце курса.

Надеюсь, это поможет, и добро пожаловать в НЛП :)

Товарищ гуманист, приходите и присоединяйтесь к нам в обработке естественного языка

Прославляйте язык, учитывайте его нюансы.

Вопросы по теме