Ученый искусственного интеллекта: эффективное и действенное квантование для разреженных DNN

Эффективность моделей машинного обучения без потери точности

Это резюме исследования - лишь одно из многих, которые еженедельно распространяются в информационном бюллетене для ученых в области ИИ. Чтобы начать получать еженедельную рассылку, зарегистрируйтесь здесь.

Хотя глубокие нейронные сети (DNN) все чаще демонстрируют современную производительность во многих задачах компьютерного зрения, они требуют памяти и вычислений, что препятствует их применению в устройствах с ограниченным энергопотреблением. Таким образом, недавние исследования показали повышенный интерес к минимизации затрат на память и вычисления для вывода DNN.

Один из способов снизить стоимость вычислений и повысить эффективность - это квантование. Квантование включает в себя ряд методов, которые отображают входные значения из большого набора на выходные значения в меньшем наборе. Усечение и округление являются примерами процессов квантования. Существует ряд методов квантования, которые демонстрируют улучшенную производительность в снижении затрат на вычисления CNN для эффективного вывода, но им все еще не хватает надлежащей и эффективной интеграции.

Квантование без ущерба для точности

Обычно квантование снижает точность модели. Тем не менее, исследователи прилагают все большие усилия для улучшения методов квантования и отказа от компромисса с точностью. В недавней статье они предлагают метод сфокусированного квантования, который может эффективно квантовать веса модели. Предлагаемый подход квантования использует представления гауссовой смеси для локализации областей с высокой вероятностью в модельных распределениях веса и их квантования на точных уровнях. Более того, предлагаемый метод квантования использует только степени двойки, обеспечивая эффективный шаблон вычислений.

За счет интеграции обрезки и кодирования им удалось продемонстрировать высокие коэффициенты сжатия на множестве CNN. Например, они достигают 18,08 × CR в ResNet-50 с незначительной потерей 0,24% точности модели, превосходящей существующие подходы к сжатию.

Возможное использование и эффекты

Квантованные параметры, интегрированные с квантованными вычислениями глубокой нейронной сети, обладают высокой способностью достигать существенного вычислительного выигрыша и более высокой производительности. Предлагаемое сфокусированное квантование, приводящее к значительному уменьшению размера модели и вычислительных затрат, приводит к высоким степеням сжатия с повышенным КПД для текущих современных и будущих DNN.

Спасибо за чтение. Прокомментируйте, поделитесь и не забудьте подписаться! Также подписывайтесь на меня в Twitter и LinkedIn. Не забудьте 👏, если вам понравилась эта статья. Ваше здоровье!