Введение

Увлекаться машинным обучением и глубоким обучением, читать научные статьи и изучать новые методы повышения производительности моделей — это очень приятно. Вы можете применить ту же технику в своих побочных проектах или бизнес-проектах, чтобы увидеть, полезны ли эти методы или нет.

В этой статье я хотел бы поделиться с вами одной из исследовательских работ, которые я прочитал. В конце я также приведу некоторые свои комментарии. Прежде чем начать, вы можете найти ссылку на эту исследовательскую работу ниже.

Ссылка на исследовательский документ

https://www.sciencedirect.com/science/article/pii/S187705091631674X?ref=pdf_download&fr=RR-2&rr=7cbc47ee2b8f0ed8

Предыстория данной исследовательской работы

1. Вдохновлено биологической структурой сетчатки человека

  • Как положительная (яркая), так и отрицательная (темная) информация полезна сетчатке для распознавания объектов.

2. Проблема ReLU

  • Отбросил всю негативную информацию

3. Проблема дырявого ReLU

  • Проблема исчезновения градиента все еще может существовать для негативной информации.

Болевая точка

В классических моделях сверточных нейронных сетей (CNN) имеется несколько нейронных слоев. После каждого слоя применяется функция активации, чтобы ввести нелинейность нейронной сети. Некоторые общие функции активации:

1. Сигмовидная функция и ее градиент

Причина, по которой мы редко используем сигмоидальную функцию в CNN, заключается в том, что в нейронной сети обычно много слоев. Когда мы выполняем обратное распространение, градиент может исчезнуть на слоях, если производная близка к 0 (как два хвоста черной линии). Если градиент исчезнет, ​​модель больше не сможет учиться. Поэтому мы стараемся избегать использования сигмоиды в нейронных сетях. Вместо этого мы используем ReLu или Leaky ReLU ниже.

2. ReLU (выпрямленная линейная единица)

На графике ниже видно, что производная равна 1 или 0, что означает, что нейрон либо жив (1), либо мертв (0). С ReLu мы можем быть уверены, что живой нейрон сможет захватывать и передавать информацию между слоями. Однако эта функция удалила всю негативную информацию, что может привести к потере информации и ухудшению производительности модели. Итак, Leaky ReLU знакомит с принципом «не отбрасывать» негативную информацию, как показано в следующем пункте.

3. Leaky ReLu (Дырявый выпрямленный линейный блок)

Leaky ReLU используется для хранения как положительной, так и отрицательной информации, предоставляя меньший градиент для нейрона, когда выходное значение отрицательное (т.е. x ‹ 0).

Целью этой исследовательской работы является представление нового типа методологии решения проблемы ReLU, которая похожа на Leaky ReLU и называется структурой ReLU «ВКЛ/ВЫКЛ».

Структура ВКЛ/ВЫКЛ ReLU

Вместо использования одной функции активации на каждом уровне эта структура использует две функции активации:

  • Обычный ReLU (структура «ON»)

  • Перевернутый ReLU (структура «OFF»)

Поскольку существуют дополнительные функции активации, необходимо обновить и алгоритм обратного распространения ошибки.

Общая структура предлагаемой модели выглядит следующим образом:

Методы оценки модели

Существуют дополнительные функции, генерируемые функцией «OFF ReLU», что является структурным изменением. Ее нельзя сравнивать напрямую с обычной моделью ReLU.

Исследовательская группа использовала два способа сравнения производительности модели.

  1. Дополнительно включение отрицательных функций
    › 100 % положительных функций + 100 % отрицательных функций
    › Удвоение количества выходных функций
    › Увеличение размера модели
  2. Заменить половину функций отрицательными функциями
    › 50 % положительных функций + 50 % отрицательных функций
    › Потеря частичной информации
    › Ожидаемое снижение производительности

Сравнение производительности моделей

Из приведенной выше таблицы ожидается, что обычная CNN с половинными функциями приведет к ухудшению производительности.

Сравнивая традиционную структуру CNN и ON/OFF ReLU как на моделях с «половинными функциями», так и на модели с «полными функциями», мы видим, что структура ON/OFF может дополнительно улучшить производительность модели на 1,7–2,5%.

Мои комментарии

Если вы работаете со сверточной нейронной сетью, я думаю, стоит попробовать CNN с ON/OFF ReLU. Все, что вам нужно, это настроить и переобучить модель для получения результата.

Если ваша модель сильно рассчитывает на «отрицательные особенности», эта CNN со структурой ReLU ON/OFF может вас удивить и улучшить производительность вашей модели.

Примечания

Если у вас есть свободное время, рекомендуется прочитать исследовательскую работу самостоятельно. В этой статье представлено только краткое изложение и введение в исследовательскую работу. В исследовательскую работу также включено медицинское приложение со структурой «ON/OFF ReLU».

** Полная заслуга должна быть отдана первоначальной исследовательской группе.
** Ссылка на исследовательский документ: https://www.sciencedirect.com/science/article/pii/S187705091631674X?ref=pdf_download&fr=RR -2&rr=7cbc47ee2b8f0ed8