Рост бизнеса сопряжен со своим набором проблем.

В этом примере был создан набор бизнес-правил и модель NLP (Обработка естественного языка) для автоматизации ответов на запросы на возврат от клиентов. В частности, я сосредоточусь на стороне НЛП. Tf-idf используется для анализа заметок клиентов, чтобы разрешить или остановить автоматический конвейер ответов на запросы возврата клиентов.

TL; DR

Чтобы решить проблемы, связанные с увеличением количества запросов на возврат, мы использовали инструменты контролируемого машинного обучения (НЛП), чтобы еще больше увеличить количество ответов, отправляемых автоматически, повысить продуктивность и сократить время, необходимое для ответа.

Статус кво

Каждый розничный бизнес должен обрабатывать возврат. Ключевой аспект, связанный с применяемыми процессами, связан с размером проблемы. Если количество возвратов невелико, возможно, с ними можно будет справиться, если кто-то зарегистрирует их в электронной таблице Excel и вручную ответит клиентам. Если, с другой стороны, количество запросов на возврат превышает человеческий порог для хорошо контролируемого процесса, необходимо применить некоторую автоматизацию.

В нашем бизнесе есть последнее. Рост бизнеса без дополнительных мер по снижению рентабельности привел к росту проблемы. С 2015 года количество запросов на возврат увеличилось вдвое, и было ясно, что нам придется обрабатывать эту тенденцию в будущем. Вещи нужно изменить.

Какое-то время проблема решалась за счет того, что люди уделяли больше внимания этой задаче и уменьшали выполнение других задач.

Вторым шагом было создание набора бизнес-правил (конвейер автоматического ответа), который мог бы решить все запросы на возврат, для которых не требовалось специальной обработки (товары с повторяющимися продажами, без повреждений или без гарантий). И этот шаг позволил нам удовлетворить большую часть запросов на возврат до конца 2018 года. Но мы начали выходить на плато, и, опять же, потребовалось предпринять новые шаги.

Разработка NLP для уведомлений о возврате клиентов

В начале 2019 года мы заметили, что не можем увеличить количество запросов, проходящих через автоматический конвейер.

Анализируя, почему это происходит, конвейер останавливался всякий раз, когда покупатель добавлял примечание к запросу на возврат. И у нас было около 40% запросов на возврат с примечаниями:

Конечно, некоторые из этих заметок были совершенно безвредны для автоматического конвейера. Такие вещи, как «Я ошибся при запросе детали» или «Деталь не та, которую я хотел» или даже «Вы неправильно классифицировали деталь и отправили мне левую, а не правую».

Это было началом третьего шага: знакомство с НЛП с возвратными нотами клиентов, чтобы конвейер мог быть запущен или нет.

Это была простая задача «анализа настроений». Либо сообщение покупателя блокировало конвейер (0), либо разрешало его (1).

Немного предыстории НЛП с TF-IDF

Tf – idf означает частота термина – обратная частота документа.

Из Википедии - это числовая статистика, которая предназначена для отражения того, насколько важно слово для документа в коллекции или корпусе. Он часто используется в качестве весового коэффициента при поиске информации, интеллектуальном анализе текста и пользовательском моделировании. Значение tf – idf увеличивается пропорционально тому, сколько раз слово появляется в документе, и компенсируется количеством документов в корпусе, которые содержат это слово, что помогает учесть тот факт, что некоторые слова в целом встречаются чаще. tf – idf - одна из самых популярных сегодня схем взвешивания терминов; 83% рекомендательных текстовых систем в электронных библиотеках используют tf – idf.

Варианты схемы взвешивания tf – idf часто используются поисковыми системами в качестве центрального инструмента для оценки и ранжирования релевантности документа с учетом пользовательского запроса. tf – idf можно успешно использовать для фильтрации стоп-слов в различных предметных полях, включая текстовое обобщение и классификацию.

Это вес, рассчитываемый по:

Обработка данных

Что касается машинного обучения с учителем, нам нужны были ярлыки для заметок клиентов.

Мы начали маркировать множество заметок клиентов, всегда осознавая важность сбалансированной классификации. Мы могли бы легко классифицировать намного больше заметок с меткой 1 (разрешить автоматический конвейер), но это еще больше смещает данные поезда и тестирования в одну сторону.

Из 5000 помеченных нот мы знали, что они немного разбалансированы, но мы могли с этим мириться:

Затем мы разделяем данные на тренировку и тестируем:

И увеличили стоп-слово из словаря португальского на слова из нашей бизнес-области:

Обучение и тестирование

Следующим шагом было объединить всю эту подготовительную работу в классификатор и подогнать под модель:

И используйте тестовые данные для оценки модели:

Неплохо, точность 93,4% и показатель F1 94,1%.

Анализируя матрицу путаницы, большинство примечаний было правильно классифицировано: 156 были классифицированы как остановка конвейера, но не нуждались в этом (ошибка типа 1), а 124 были классифицированы как не останавливающиеся, но должны (ошибка типа 2). Для нашей бизнес-области ошибка 2-го типа является наихудшей, и для будущей работы с ней нужно работать дальше.

Подводя итоги

NLP - ключевой инструмент для улучшения автоматизации задач и решения растущей сложности бизнес-процессов. Для будущей работы могут быть применены другие подходы (один из них - LSTM) и даже использование автоматических инструментов машинного обучения.

Надеюсь, я дал представление о проблемах, которые мы решаем, и решениях, которые мы применяем. В следующие пару месяцев мы продолжим увеличивать количество автоматически получаемых ответов и, опять же, повышать эффективность, удовлетворенность клиентов и фокусировать людей на задачах, ориентированных на клиента.

Оставлю вас с результатом работы: с 2018 года мы увеличили количество автоматических ответов более чем на 20% с помощью машинного обучения.