Часть 1. Предыстория

В предыдущей статье мы рассмотрели обучение набора нейронных сетей различной архитектуры, чтобы попытаться предсказать исход игр Национальной футбольной лиги (НФЛ). Эта попытка имела некоторый успех, но оставила у нас ряд вопросов.

В частности, 1) почему конвергентная нейронная сеть плохо предсказала так много игр вне обучения, 2) каков уровень достоверности прогноза для игры вне обучения и 3) какова чувствительность исход игр к незначительным или умеренным отклонениям в статистических показателях команды в предстоящей игре?

В некоторых комментариях говорилось, что мы использовали слишком мало обучающих игр при обучении нашего инструмента прогнозирования нейронной сети. На момент первоначальной публикации статьи мы использовали 25% доступных игровых результатов в качестве обучающих игр, а оставшиеся 75% игр использовали в качестве внетренинговых игр для оценки производительности нейронной сети. предсказатель.

Не подгоняли ли мы данные в 25% игр? Или мы использовали недостаточно игр, чтобы отразить важные характеристики, определяющие исход игры НФЛ?

Часть 2. Обновленные результаты обучения

Мы повторно выполнили наш анализ, используя различные уровни данных во время обучения и вне обучения. Для исследования мы использовали нейронную сеть с четырьмя скрытыми уровнями с 4, 8, 10 и 9 скрытыми нейронами на слой. Эта архитектура, казалось, работала достаточно хорошо в предыдущем исследовании.

Статистика командного футбола для каждой игры Национальной футбольной лиги в 2015 году была загружена и переформатирована для удобства использования. Всего в анализе использовалась 61 статистика.

Часть 3. Обучение

На протяжении всего исследования использовалась фиксированная архитектура четырех скрытых слоев с 4, 8, 10 и 9 скрытыми нейронами соответственно.

Мы варьировали количество обучающих игр, используемых для обучения нейронной сети с фиксированной архитектурой, и отмечали полученные прогнозы для внеобучающих игр. Типичные результаты обучения показаны на рисунке 1. В этом случае отображается разница между обученной нейронной сетью и фактическим дифференциалом точек. Как показано, все игры предсказаны (т. е. обучены) с точностью до одной точки фактического результата. Этот образец разницы в один балл оставался верным независимо от количества тренировочных игр, используемых для обучения нейронной сети, от 25% до 65% от общего количества игр.

Часть 4. Прогнозы

Итак, насколько хорошо различные нейронные сети предсказывали внетренировочные игры?

На рис. 2 показана доля (а не процент) игр, которые обученные нейронные сети предсказали с точностью до 2 баллов от фактического исхода. По горизонтальной оси отложена доля (а не процент) игр, которые использовались при обучении нейронных сетей.

Красные столбцы показывают общую долю игр во время обучения и игр вне обучения, которые нейронная сеть предсказывает с точностью до 2 баллов. Красные полосы показывают растущую тенденцию по мере того, как вы используете больше игр в тренировочном наборе. Этот результат вполне ожидаем. То есть вы тренируете нейронную сеть, чтобы быть в пределах одного или двух очков или больше игр, таким образом, общее количество игр, в которых вы будете находиться в пределах 2 очков, увеличивается.

Синие столбцы показывают долю чисто внетренинговых игр, которые предварительно обученная нейронная сеть может предсказать с точностью до 2 баллов. Несколько удивительно, что независимо от того, сколько данных используется для обучения исходной нейронной сети, предсказательная способность нейронной сети хороша только примерно для 25% игр вне обучения.

Часть 5. Дальнейшие действия

Есть еще много результатов, которые нужно изучить, и вопросы, на которые нужно ответить в отношении этих данных.

Прогностическая способность нейронных сетей при 25% достижении цели все же ниже, чем нам хотелось бы. Конечно, если бы у вас была высокая уверенность в этих 25% игр, вы могли бы делать высокие ставки в долларах на эти игры и делать небольшие ставки или вообще не ставить на игры с низкой уверенностью. Но возможность прогнозирования на 25% не дает генеральному менеджеру или тренеру команды существенной полезной информации с точки зрения объяснения того, почему команда выигрывает или проигрывает игры и какие позиции им нужно укрепить в будущих разменах или выборе драфта.

Наши следующие шаги включают в себя:

1) Изучение особенностей игр, которые не были хорошо предсказаны, и попытка понять, почему они кажутся выпадающими.

2) Добавление доверительных интервалов к каждому прогнозу нейронной сети

3) Определение чувствительности нейросетевых прогнозов к небольшим или умеренным изменениям различных статистических величин. Например, если команда обычно набирает в среднем 4 ярда за игру в спешке, а в перерыве между играми может пробежать только 3 ярда, как это повлияет на исход игры?

4) Работа над определением того, какие статистические значения являются доминирующими в определении исхода игр Национальной футбольной лиги. Мы уже начали работу над этой задачей в рамках анализа главных компонентов (PCA), который приведет нас к тому, какие статистические данные важны, а какие имеют второстепенное или меньшее значение для определения исхода игр.

Это увлекательное занятие, которое включает в себя спортивные знания, возможности алгоритмов, кодирование, очистку и масштабирование данных, а также интерпретацию результатов.