Рассмотрим процесс обучения глубокой нейронной сети FF с использованием мини-пакетного градиентного спуска. Насколько я понимаю, в каждую эпоху обучения у нас разный случайный набор мини-партий. Затем, перебирая все мини-пакеты и вычисляя градиенты параметров НС, мы будем получать случайные градиенты на каждой итерации и, следовательно, случайные направления параметров модели для минимизации функции стоимости. Представим, что мы зафиксировали гиперпараметры алгоритма обучения и запускали процесс обучения снова и снова, тогда у нас получались бы модели, которые полностью отличаются друг от друга, потому что в тех тренировках изменения параметров моделей были разными.
1) Всегда ли это так, когда мы используем такие алгоритмы обучения на основе случайных данных?
2) Если это так, то где гарантия, что повторное обучение НС с лучшими гиперпараметрами, найденными в ходе предыдущих тренировок и проверок, снова даст нам лучшую модель?
3) Можно ли найти такие гиперпараметры, которые всегда будут давать лучшие модели?