Я ищу надежное решение для определения уникального идентификатора файлов данных измерений. Я собираю данные из разных источников, в основном из сетевых хранилищ. Файлы данных могут быть переименованы и скопированы более одного раза в разные места. Метод должен работать только на платформе Windows. Пока делаю следующее: создаю ID из времени последней модификации и размера файла. Я предполагаю, что файл будет создан только один раз в процессе измерения и больше никогда не будет изменен. Это моя текущая реализация:
import pathlib
import datetime
def file_uid(file):
fname = pathlib.Path(file)
mod_time = datetime.datetime.fromtimestamp(fname.stat().st_mtime).strftime("%d.%m.%Y %H:%M:%S")
file_size = fname.stat().st_size
uid = '%s%s%s' %(mod_time,'_',str(file_size))
return uid
Может эта идея сработает, или я вообще что-то упустил? Что будет наилучшей практикой для достижения надежного решения этой проблемы? Или я должен использовать какой-то алгоритм контрольной суммы и что бы порекомендовали?