Введение
Увлекаться машинным обучением и глубоким обучением, читать научные статьи и изучать новые методы повышения производительности моделей — это очень приятно. Вы можете применить ту же технику в своих побочных проектах или бизнес-проектах, чтобы увидеть, полезны ли эти методы или нет.
В этой статье я хотел бы поделиться с вами одной из исследовательских работ, которые я прочитал. В конце я также приведу некоторые свои комментарии. Прежде чем начать, вы можете найти ссылку на эту исследовательскую работу ниже.
Ссылка на исследовательский документ
Предыстория данной исследовательской работы
1. Вдохновлено биологической структурой сетчатки человека
- Как положительная (яркая), так и отрицательная (темная) информация полезна сетчатке для распознавания объектов.
2. Проблема ReLU
- Отбросил всю негативную информацию
3. Проблема дырявого ReLU
- Проблема исчезновения градиента все еще может существовать для негативной информации.
Болевая точка
В классических моделях сверточных нейронных сетей (CNN) имеется несколько нейронных слоев. После каждого слоя применяется функция активации, чтобы ввести нелинейность нейронной сети. Некоторые общие функции активации:
1. Сигмовидная функция и ее градиент
Причина, по которой мы редко используем сигмоидальную функцию в CNN, заключается в том, что в нейронной сети обычно много слоев. Когда мы выполняем обратное распространение, градиент может исчезнуть на слоях, если производная близка к 0 (как два хвоста черной линии). Если градиент исчезнет, модель больше не сможет учиться. Поэтому мы стараемся избегать использования сигмоиды в нейронных сетях. Вместо этого мы используем ReLu или Leaky ReLU ниже.
2. ReLU (выпрямленная линейная единица)
На графике ниже видно, что производная равна 1 или 0, что означает, что нейрон либо жив (1), либо мертв (0). С ReLu мы можем быть уверены, что живой нейрон сможет захватывать и передавать информацию между слоями. Однако эта функция удалила всю негативную информацию, что может привести к потере информации и ухудшению производительности модели. Итак, Leaky ReLU знакомит с принципом «не отбрасывать» негативную информацию, как показано в следующем пункте.
3. Leaky ReLu (Дырявый выпрямленный линейный блок)
Leaky ReLU используется для хранения как положительной, так и отрицательной информации, предоставляя меньший градиент для нейрона, когда выходное значение отрицательное (т.е. x ‹ 0).
Целью этой исследовательской работы является представление нового типа методологии решения проблемы ReLU, которая похожа на Leaky ReLU и называется структурой ReLU «ВКЛ/ВЫКЛ».
Структура ВКЛ/ВЫКЛ ReLU
Вместо использования одной функции активации на каждом уровне эта структура использует две функции активации:
- Обычный ReLU (структура «ON»)
- Перевернутый ReLU (структура «OFF»)
Поскольку существуют дополнительные функции активации, необходимо обновить и алгоритм обратного распространения ошибки.
Общая структура предлагаемой модели выглядит следующим образом:
Методы оценки модели
Существуют дополнительные функции, генерируемые функцией «OFF ReLU», что является структурным изменением. Ее нельзя сравнивать напрямую с обычной моделью ReLU.
Исследовательская группа использовала два способа сравнения производительности модели.
- Дополнительно включение отрицательных функций
› 100 % положительных функций + 100 % отрицательных функций
› Удвоение количества выходных функций
› Увеличение размера модели - Заменить половину функций отрицательными функциями
› 50 % положительных функций + 50 % отрицательных функций
› Потеря частичной информации
› Ожидаемое снижение производительности
Сравнение производительности моделей
Из приведенной выше таблицы ожидается, что обычная CNN с половинными функциями приведет к ухудшению производительности.
Сравнивая традиционную структуру CNN и ON/OFF ReLU как на моделях с «половинными функциями», так и на модели с «полными функциями», мы видим, что структура ON/OFF может дополнительно улучшить производительность модели на 1,7–2,5%.
Мои комментарии
Если вы работаете со сверточной нейронной сетью, я думаю, стоит попробовать CNN с ON/OFF ReLU. Все, что вам нужно, это настроить и переобучить модель для получения результата.
Если ваша модель сильно рассчитывает на «отрицательные особенности», эта CNN со структурой ReLU ON/OFF может вас удивить и улучшить производительность вашей модели.
Примечания
Если у вас есть свободное время, рекомендуется прочитать исследовательскую работу самостоятельно. В этой статье представлено только краткое изложение и введение в исследовательскую работу. В исследовательскую работу также включено медицинское приложение со структурой «ON/OFF ReLU».
** Полная заслуга должна быть отдана первоначальной исследовательской группе.
** Ссылка на исследовательский документ: https://www.sciencedirect.com/science/article/pii/S187705091631674X?ref=pdf_download&fr=RR -2&rr=7cbc47ee2b8f0ed8