Этот блог предназначен для того, чтобы делиться ходом выполнения нашей командой проекта Capstone. Мы рады поделиться нашим замечательным проектом по выявлению обращений в полицию с участием лиц с психическими заболеваниями (PWMI) с использованием больших языковых моделей (LLM).

Учитывая, что почти пятая часть времени полиции уходит на дела, связанные с PWMI, крайне важно найти более эффективные способы выявления и классификации этих случаев и проведения ранней классификации. В этом проекте мы использовали LLM для обнаружения ранних сигналов из журналов вызовов, открывая потенциальные возможности для более эффективного управления вызовами и получения более полных данных для информирования полиции о потребностях в ресурсах и обучении.

При определении целевого значения и окна обучения мы включили множество категорий, которые в совокупности составляют 3% событий. Это неравномерное распределение создало проблемы, поскольку традиционные алгоритмы машинного обучения, как правило, отдают предпочтение классу большинства. Чтобы смягчить это, мы присвоили более высокие веса классу меньшинства. Мы сравнили этот подход с недостаточной выборкой — методом, при котором мы создаем пропорцию 50–50 типов, выбирая подмножество из исходного набора данных.

Нашими оценочными показателями для оценки производительности нашей модели были оценка F1 и оценка F2. Эти оценки полезны в ситуациях с несбалансированными данными, когда обычные оценки точности должны быть более точными. Кроме того, оценка F2 придает большее значение припоминанию, чем точности. Использование оценки F2 может заставить модель больше сосредоточиться на поиске всех положительных случаев.

Наше изучение атрибутов функций выявило захватывающие идеи. Хотя не было согласованности в частоте слов между событиями, связанными с PWMI, и другими событиями, мы обнаружили значительную разницу в длине их текста и продолжительности события. События, связанные с PWMI, как правило, почти вдвое превышали количество записей в журнале вызовов, а для разрешения требовалось на 70% больше времени, что подчеркивает нагрузку, которую эти события ложатся на полицейскую систему.

Для построения нашей модели мы начали с модели TF-IDF + Наивный Байес и модели TF-IDF + линейной регрессии в качестве базовой линии, но было ясно, что мы можем добиться лучших результатов. Итак, мы перешли к использованию LLM серии BERT, которые мы точно настроили с помощью текстовых функций. Для повышения надежности мы внедрили методы недостаточной выборки и бэггинга в сочетании с базовыми моделями BERT и RoBERTa.

Затем мы нашли модель DeBERTa-V3. DeBERTa-V3 — это модель, которая улучшает DeBERTa с использованием предварительного обучения в стиле ELECTRA с разделением вложений с распутыванием градиента. В то время как DeBERTa улучшает модели BERT и RoBERTa, используя распутанное внимание и усовершенствованный декодер маски. Он продемонстрировал отличные способности в задачах понимания естественного языка, которые должны очень хорошо соответствовать нашей задаче категоризации текста и анализа контента.

Мы применили несколько методов, чтобы улучшить работу DeBERTa-V3 в процессе тонкой настройки:

Заморозка слоя. Мы обучили только 25 % параметров, заморозив первые девять слоев модели. Если мы увеличим это значение, модель будет иметь тенденцию к переобучению, а если мы уменьшим его, модель будет работать хуже из-за недостаточной подгонки.

Затухание веса. Это метод регуляризации, используемый в моделях машинного обучения для предотвращения переобучения путем добавления штрафа к функции потерь. Этот штраф рассчитывается как константа, умноженная на сумму квадратов весов модели. Делая это, наша модель будет поощряться к тому, чтобы веса были как можно меньше, что приводит к более простым моделям и помогает снизить риск переобучения.

Прогрев и косинусный планировщик скорости обучения. Это стратегии для настройки скорости обучения во время обучения моделей машинного обучения, в частности нейронных сетей. Комбинируя эти два метода, наша модель будет лучше сходиться.

Накопление градиента. В машинном обучении размер пакета является важным гиперпараметром. Иногда нам понадобится большой размер партии, чтобы модель была менее чувствительна к шуму в обучающих данных. Однако при тонкой настройке LLM настройка модели с потребительским оборудованием всегда представляет собой сложную проблему. В этой практике мы применили накопление градиента, чтобы эффективно использовать большие размеры пакетов, даже несмотря на то, что память нашего графического процессора ограничена.

В конце концов, наша модель показала хорошие результаты, классифицируя дополнительные ~ 20% событий как потенциальные события PWMI, эффективно основанные на текстовой хронологии.

Мы предложили системный рабочий процесс, состоящий из двух частей, включая вывод и MLOps, чтобы упростить этот процесс. Часть вывода предварительно обрабатывала накопленные записи журнала вызовов и классифицированные события, а часть MLOps сравнивала прогнозы с золотым ярлыком и измеряла производительность модели. Модель будет переобучаться, используя самые последние записи журнала вызовов, если производительность упадет ниже определенного порога.

Заглядывая вперед, мы видим потенциал в улучшении проверки с использованием набора данных о людях, объединении текстовых и нетекстовых данных для более надежной модели, улучшении конвейера обработки данных и включении данных, аннотированных человеком, для повышения точности. В конечном счете, наш проект иллюстрирует потенциал ИИ и машинного обучения в повышении эффективности полиции и рассмотрении дел PWMI. Мы надеемся, что наши выводы вдохновят на дальнейшие исследования в этой области.