Я читал кое-что о Fisher Vector и все еще учусь. Это лучшее представление, чем классическое представление BoF, использующее GMM (или k-средних, даже если это обычно называют VLAD).
Однако я видел, что обычно они используются для задач классификации, например, с SVM.
Но как насчет поиска изображений? Я видел, что они также использовались для поиска изображений (здесь), но я не понимаю одного момента: учитывая два FV, представляющих 2 изображения, как мы вычисляем их расстояния и, следовательно, «насколько похожи два изображения?»
Разумно ли использовать их в таком контексте?