Любой специалист по данным скажет вам, что одной из самых сложных частей проектов обработки естественного языка является отсутствие (или нехватка) данных для обучения. Благодаря глубокому обучению эта проблема была частично решена, но теперь проблема может заключаться в слишком большом количестве данных - до миллионов или даже миллиардов точек обучения. По большей части решение состояло в том, чтобы предварительно обучить модели, а затем настроить их для конкретных задач. Однако с новой программой Google BERT мост между этими двумя проблемами значительно сократился. BERT - это новая современная предварительно обученная модель, значительно упрощающая точную настройку.

[Статья по теме: 20 открытых наборов данных для обработки естественного языка]

Что следует знать специалистам по данным

В то время как большинство предварительно обученных моделей обучаются либо как контекстные, либо как бесконтекстные, а также как однонаправленные или двунаправленные. Самая важная вещь, которую должны знать специалисты по данным о программе Google BERT, - это невероятное использование глубокого двунаправленного контекстного обучения. Предыдущие модели генерируют представление встраивания одного слова для каждой части словаря. Однако, делая BERT двунаправленным, он использует контекст вокруг данного слова и начинается с самого низа нейронной сети.

Двунаправленность на самом деле означает, что BERT может больше узнать о тонкостях человеческой речи - проблема, с которой модели НЛП сталкивались в прошлом, - включая слова, которые имеют двойное значение, предсказывать, совпадают ли предложения или нет, и отвечать на вопросы. Его исходный код также открыт на GitHub, и его можно использовать через Colab. Идеи, лежащие в основе BERT, не обязательно новы, это первый в своем классе, работающий так хорошо.

Наконец, эта технология интересна для специалистов по обработке данных, потому что ею легко и быстро манипулировать - точно настраивать - для конкретных задач НЛП (если это вообще необходимо). BERT сравнивали с другими современными процессорами (и людьми) и набрали больше баллов, чем они, практически без специального обучения конкретным задачам. Это упрощает вашу работу, сокращает количество часов, которые вы тратите на обучение отдельных моделей, и означает, что вы быстрее добиваетесь своих результатов и следующих шагов.

Что должны знать лица, принимающие решения

Для руководителей принять решение о внедрении BERT от Google просто. Во-первых, это проект с открытым исходным кодом, а это значит, что его реализация для решения ваших конкретных задач и задач не требует дополнительных затрат. Во-вторых, это новейшая и лучшая технология, которая, когда вы работаете над проблемами НЛП, может стать залогом успеха вашего конкурента. В-третьих, он упрощает процессы, которые ваши специалисты по данным в настоящее время делают медленно и часто вручную.

[Статья по теме: Самое захватывающее исследование обработки естественного языка за 2019 год]

Это означает, что у ваших специалистов по данным будет больше времени, чтобы на самом деле запустить модели и быстрее получить результаты. Более быстрые и лучшие результаты при решении одной проблемы означают, что вы можете перейти к реализации этих результатов, а ваша компания может приступить к решению следующей проблемы таким же более эффективным способом. Модели НЛП, как известно, утомительны, и их сложно собирать и обучать, поэтому стоит изучить любое программное обеспечение, которое экономит время и деньги за счет ускорения процесса.

Чтобы узнать больше о BERT от Google, прочтите их статью здесь.

Оригинальный пост здесь.

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.