Автор: Глен Фергюсон, доктор философии
Глен Фергюсон (Glen Ferguson) — специалист по данным в Казерте, обладающий обширным опытом моделирования. Он является опубликованным автором более 25 научных статей.

Ни для кого не секрет, что многие компании генерируют текст в процессе своей обычной деятельности. Например, больничная система может генерировать сотни или тысячи отчетов в день, а школа может накапливать большой набор текстовых данных за несколько лет. Организации, использующие эти текстовые данные с помощью машинного обучения, могут оказать положительное влияние на бизнес-операции.

Использование текстовых данных и НЛП

Компании могут использовать текстовые данные, чтобы понять настроения потребителей: те, кто использует анализ настроений для информирования своих бизнес-операций, повысят общую удовлетворенность клиентов, повысят пожизненную ценность и сократят отток.

Процесс поиска информации в текстовых данных известен как обработка естественного языка, обычно сокращенно НЛП. Первая цель использования НЛП для машинного обучения — преобразовать текстовые данные, понятные людям, в значения, понятные алгоритмам машинного обучения. Преобразованные данные можно использовать непосредственно для машинного обучения или комбинировать с другими типами данных, такими как табличные числовые данные или изображения, прежде чем делать прогнозы с помощью машинного обучения.

Вложения: преобразование текста в числовые операции

Хотя существует множество способов преобразования текста в числовое представление, одним из самых мощных, понятных и широко используемых методов является встраивание. Процесс формирования вложений из слов и документов датируется 2013 годом и был впервые разработан командой Google под руководством Томаша Миколова. Текущие исследования в этой области привели к более сложным методам, использующим контекстную информацию и информацию о подсловах, но они не меняют основных идей использования текста в машинном обучении.

Вложения текста в основном используются из-за их способности фиксировать не только слова, но и отношения между словами. В случае более сложного встраивания это может включать контекст слова. Природа этих методов позволяет предварительно обучать вложения для использования в различных приложениях без использования помеченных данных. Эти модели имеют тенденцию быть большими и очень общими. Например, одна доступная модель от Google содержит 3 миллиона слов и фраз из набора данных Google News, содержащего более 100 миллиардов слов. Если кто-то анализирует текст, который в основном содержит эти слова или фразы, предварительно обученную модель можно использовать для преобразования данных с небольшими усилиями и прямого использования этих вложений в машинном обучении.

Использование облачных API НЛП

Встраивание текста, которое включает больше информации, является основой для расширенных облачных API NLP, включая Google Natural Language, Amazon Comprehend и Azure Cognitive Services. Эти облачные сервисы предлагают ряд функций, включая анализ тональности, распознавание именованных сущностей, анализ зависимостей и другие. Сервисы также могут быть подключены к машинному обучению в облачных экосистемах, таких как Google AI Platform или AWS Sagemaker. Предварительно обученные модели, используемые в этих сервисах, скорее всего, применимы во многих отраслях.

Проблема специализированного текста

Однако узкоспециализированный текст, подобный тому, что встречается в медицине, вряд ли будет содержаться во встраиваниях обучающих наборов. Модели, прошедшие обучение по Википедии, вряд ли владеют медицинским или деловым языком, что важно в этих условиях, но не широко используется за его пределами. Например, в новостных статьях редко упоминается P.R.N., латинская аббревиатура «при необходимости» или MQL для «Маркетингового квалифицированного лидерства», которые обычно используются в медицине и бизнесе соответственно. Хотя возможно, что в этих случаях будут работать предварительно обученные встраивания, вполне вероятно, что более подходящими будут более специализированные модели.

Чтобы восполнить этот пробел в важной области медицины, Amazon выпустил Amazon Medical Comprehend. Эта служба может выполнять множество функций, уникальных для медицинской области, таких как определение дозировки лекарств и пути введения с использованием моделей, оптимизированных для медицинского текста. Еще одним поставщиком отраслевой текстовой аналитики является John Snow Labs. Их технология Spark NLP включает модели премиум-класса и наборы данных для NLP, ориентированные на биомедицинские приложения. Кроме того, популярные модели с открытым исходным кодом включают SciBERT от и ScispaCy от Института искусственного интеллекта Аллена. Эти последние модели являются уточнениями для включения данных в научную область, которая не была хорошо представлена ​​в предыдущих предварительно обученных моделях.

Также можно установить индивидуальные модели с использованием облачных технологий от основных поставщиков, упомянутых выше. Для обучения моделей на новых данных доступны локальные инструменты с открытым исходным кодом. Эти пользовательские модели могут быть уточнениями существующих моделей или могут быть обучены с нуля. Во всех случаях для пользовательских моделей требуются отраслевые наборы данных, предоставленные пользователем, и внутренняя база знаний для обучения/точной настройки, а затем развертывания моделей. Решение об использовании предварительно обученной модели, уточнении существующей или настройке с нуля в значительной степени зависит от конкретного приложения и доступных данных. Использование пользовательской модели — отличный способ использовать отраслевой текст в приложениях машинного обучения. Позволяет извлекать информацию непосредственно из текста с помощью машинного обучения.

Проверенные результаты

У John Snow Labs и Amazon Comprehend Medical есть несколько клиентов, включая Roche, Johnson & Johnson, PwC и Fred Hutch. PwC сообщает, что их клиенты, использующие Amazon Comprehend Medical, значительно быстрее выявляют важные с медицинской точки зрения события. Еще одним специализированным поставщиком текстовой аналитики для текстовых данных, созданных клиентами, является Clarabridge. Их клиент KitchenAid сообщил об увеличении активности в социальных сетях на 85% и увеличении числа поклонников в социальных сетях на 90% благодаря использованию технологии Clarabridge.

Как показывают эти примеры, существует отличная возможность использовать отраслевые текстовые данные и машинное обучение для получения информации, которая оказывает влияние на бизнес. Компании, использующие текстовые данные и машинное обучение, могут повысить эффективность, увеличить вовлеченность и увеличить пожизненную ценность клиентов.