В этой статье, опубликованной в ICML19, предлагается альтернатива популярной теории сжатия изображений с потерями Шеннона на основе соотношения скорости и искажения. В других работах было показано, что низкое искажение (например, PSNR, MS-SSIM) не является синонимом высокого качества восприятия, и фактически оптимизация одного часто происходит за счет другого. Эта работа использует более теоретический подход к доказательству вовлеченных компромиссов. Хотя их экспериментальный подход подтверждается только источником Бернулли и MNIST, они хорошо справляются с созданием основы для этого тройного компромисса. Ссылка на бумагу.

Они показывают, что ограничение качества восприятия высоким, как правило, приводит к повышению кривой «скорость-искажение», что требует жертвы либо скоростью, либо искажением.

Примечания:

  1. Их определение искажения: ожидание исходного изображения X и реконструированного изображения X_hat.

2. Скорость определяется как R(D), I обозначает взаимную информацию и ограничивается D. Известно несколько общих свойств этой функции, в том числе то, что она всегда монотонно не возрастает и выпукла.

3. Качество восприятия определяется как расхождение распределений из двух источников (например, расхождение К-Л или Вессерштейна).

4. Обратите внимание, что компромисс R-D-P не является решением в закрытой форме.

5. Они показывают, что минимизация искажений не обязательно приводит к хорошему качеству восприятия. Показано, что такое поведение справедливо для любой меры искажения.

6. При высоких битрейтах можно достичь хорошего качества восприятия (низкий P) без значительного ущерба для искажения D. Однако, когда битрейт становится ниже, уровень равной скорости существенно изгибается в сторону низких значений P, освещая обострение компромисса между искажением и восприятием в этом режиме.

7. Теорема 1: 1) функция R-D-P монотонно не возрастает в D и P. 2) выпукла, если выполняется ограничение A1, и 3) удовлетворяет условию R(.,0), не равному R(.,inf), если выполняется A2. (ограничения в бумаге). т. е. свойства 1 и 3 указывают на то, что существует некоторый D0, для которого R(D0, 0) > R(D0, ∞), показывая, что кривая скорость-искажение обязательно поднимается при ограничении для идеального качества восприятия.

8. Теорема 2: можно достичь идеального качества восприятия без увеличения скорости, пожертвовав не более чем двукратным увеличением среднеквадратичной ошибки (СКО). Более конкретно, достижение идеального качества восприятия при искажении D не требует более высокой скорости передачи данных, чем та, которая необходима для сжатия при искажении 1/2D без ограничения качества восприятия.

Минусы/непонятно:

  1. Экспериментальный раздел немного слаб из-за отсутствия человеческих оценок и отсутствия набора данных реального мира (MNIST не сокращает его).
  2. Методология MNIST оценивается для более высоких скоростей передачи данных (см. рис. 6). Хотя изображения MNIST выглядят убедительно, получают ли они аналогичные компромиссы при более низкой скорости передачи данных?