Я не знаю ни одного существующего независимого от платформы программного обеспечения, которое могло бы выполнить это, но я знаю, как это можно сделать на интерпретируемом (независимом от платформы) языке, таком как Java.
По сути, нам просто нужно удалить любые метаданные (теги) из файла, предварительно демультиплексировав видеофайлы. Теоретически после демультиплексирования и удаления метаданных можно было бы хешировать файл и сравнивать его с другим файлом, прошедшим тот же процесс, чтобы сопоставить идентичные файлы, несмотря на разные теги. В отличие от отпечатка пальца, это будет идентифицировать не похожие песни/фильмы, а идентичные файлы (представьте, что вам может понадобиться 10 разных версий или битрейтов данной песни, которую вы заархивировали, но не хотите, чтобы 2 идентичные копии любой из них плавали вокруг) .
Наиболее тревожной частью этого является удаление тегов, поскольку существует множество различных спецификаций для форматов тегов, которые не обязательно реализуются одинаково в разных приложениях, т. Е. Один и тот же аудиофайл с идентичными тегами по отдельности в двух разных приложениях может не привести к идентичным выходным файлам. . Единственный способ, которым это может создать фатальную проблему для концепции контрольной суммы только для аудио, - это если популярное программное обеспечение для тегов вносит какие-либо изменения в двоичную звуковую часть файла или дополняет звук нестандартным способом.
Получение контрольной суммы тривиально, но я не знаю, какие библиотеки независимы от платформы для демультиплексирования и удаления тегов mpeg-файлов. Я знаю, что в средах 'nix mpgtx - отличный инструмент командной строки, который может выполнять демультиплексирование и удаление тегов, но очевидно, что это решение не зависит от платформы.
Может быть, кто-то там чувствует себя амбициозным?
person
defines
schedule
17.04.2010