Это проблема, с которой я столкнулся недавно, когда решал задачу классификации эмоций.

Я искал способы увеличения и классификации данных для обнаружения эмоций в тексте клиента в чат-боте. Один из типичных способов сделать это - использовать вложения слов для извлечения синонимов и заменить примеры обучающего набора данных для дополнения данных.

Допустим, у вас есть пример «Пицца плохая» с отрицательной этикеткой. Для увеличения вы смотрите на похожие слова для плохого. При встраивании слов мы получаем слова, которые обычно окружены им и включают анонимные (хорошие, красивые) слова, а также встраивание слов обучается с использованием гипотезы распределения. понятие (слова, которые встречаются вместе, имеют одинаковое значение вместе).

Использование универсальных встраиваний для этого варианта использования явно бесполезно, поскольку меняет настроение на противоположное. Этот сценарий побудил меня написать более подробный пост о том, как выборочно выбирать между различными типами встраивания слов.

По сути, обучение встраиванию происходит, когда вы берете кучу данных и заставляете их работать для обучения предсказанию слова в заданном контексте в случае word2vec с использованием CBOW или Skip-gram или любой другой общей задачи, такой как моделирование языка по маске или предсказание следующего предложения,

таким образом, эти вложения направлены на получение общего представления слов.

Данные, используемые для обучения этих моделей, похожи на статьи в Википедии или новости Google, которые имеют определенную структуру, например

в целом хорошо структурированный и сопровождаемый стандартной синтаксической структурой английского языка.

И у всех правильное написание.

Если вы хотите адаптироваться к конкретному варианту использования, нам нужно было правильно взвесить все конкретные детали, на которых обучались вложения, например, в моем случае обнаружения эмоций, текстовые сообщения пользователя следуют этому свойству данных.

Пользователь часто пишет в режиме жалобы / обзора.

Написание этого слова обычно не всегда правильно

И тональность задачи сильно разнится.

Поскольку в разговорном стиле английская грамматика не требует строгого соблюдения.

Итак, если мы посмотрим на это, то обнаружим менее качественные свойства, соответствующие задаче обнаружения эмоций. Непосредственное использование общих встраиваний приведет к снижению производительности.

Вышеупомянутые свойства мы можем рассматривать как общую рекомендацию, которую мы можем иметь перед выбором встраивания. Мы также можем выполнить некоторые тщательные проверки, прежде чем переходить к выбору вложений.

Перекрытие данных:

Проверка совпадения данных: если 80% слов нашего словарного запаса присутствуют в предварительно обученных вложениях, то это хороший знак, в этом также лучше видеть, присутствуют ли важнейшие словарные слова в 80% или нет. Если наши главные слова не представлены, то большинство слов будут OOV и приведут к снижению производительности.

Проверить, сколько слов OOV в настоящее время основано на выбранном встраивании слов, иногда бывает сложно, так как нам нужно выполнить шаги предварительной обработки, за которыми следуют предварительно обученные вложения, вы проверяете ссылку

Размер данных:

Если у нас недостаточно данных для обучения модели глубокого обучения или собственных встраиваний слов, мы можем использовать предварительно обученные встраивания и настроить их. Это помогает не переобучать общие вложения, мы дорабатываем его в соответствии с нашей задачей, поэтому окончательные вложения менее предвзяты.

Если у нас будет достаточно, мы можем продолжить и обучать вложения для конкретных задач и использовать их.

Вывод :

При выборе встраивания лучше оценить, на каком типе задачи и данных он обучается, выбрать вложения, наиболее близкие к вашим вариантам использования. Также при их выборе используйте тесты на перекрытие размера набора данных и словарного запаса. Это позволяет избежать тестирования всех доступных и быстро перебирать подходящие вложения для варианта использования.