Во время нашего 9-месячного онлайн-курса для получения сертификата Data Scientist с DataScientest, Дэвид, Жан-Ив и я были зачислены в реальный проект. Тот факт, что нам разрешили выбрать тему, связанную с заботой об окружающей среде, еще больше повысил наш интерес и мотивацию.

Цель состояла в том, чтобы спрогнозировать периоды времени, в течение которых производства энергии недостаточно для покрытия всех энергетических потребностей. Мы увидели эту возможность как весьма важную, поскольку мы решаем все больше и больше экологических проблем, чтобы предотвратить стихийные бедствия на Земле. Например, глобальная температура уже повысилась на 1,1 градуса по сравнению с доиндустриальным уровнем. Если она продолжит подниматься выше 1,5 градусов, прогнозируются необратимые климатические изменения.

Общий нарратив таков: если мы продолжим потреблять все больше и больше энергии, нам придется изменить свой образ жизни и разработать альтернативные источники энергии, поскольку все больше и больше происходят природные кризисы, вызванные глобальным потеплением.

Но как объяснить это общее ощущение с помощью Науки о данных? Кроме того, как мы можем узнать, сколько энергии требуется и в какое время, чтобы улучшить экологическую ситуацию?

Используя методы Open Data и Data Science, которые мы изучили в рамках курса DataScientest, мы смогли продвинуться вперед и принять этот краеугольный камень для нового будущего.

Набор данных

Мы использовали подробный набор данных, отображающий потребление и производство энергии во Франции с 2013 по 2021 год. Это набор данных с открытым исходным кодом, опубликованный электроэнергетической компанией RTE, которая отвечает за управление транспортировкой энергии по всей Франции.

Это набор данных, содержащий индивидуальные данные для каждой из 12 областей Франции. Производство разделено на различные источники энергии: атомную, тепловую, гидравлическую, солнечную и ветровую.

Анализ данных и визуализация данных

Удивительно, но первые исследования показали, что потребление энергии повторяется из года в год. За исключением весны 2020 года, когда COVID-19 сильно повлиял на уровень энергопотребления, мы наблюдаем явную и рекурсивную модель с высоким потреблением зимой и низким потреблением летом. Это четко указывает на высокую зависимость между отопительными приборами и потребляемой ими энергией, а значит, между потребностями в энергии и погодой. Небольшой прирост потребления можно заметить даже в самые жаркие летние дни, когда, скорее всего, включаются кондиционеры.

Это было для нас отличной новостью и вселяло надежду на то, что мы сможем довольно точно прогнозировать потребление энергии.

Затем мы показали, что производство следует за потребностями в энергии, что весьма актуально, поскольку производство может быть реакцией на спрос на энергию.

Изучая детали, мы можем визуализировать точки отрицательного баланса, например. сбои в производстве для поддержки потребительского спроса. Наша цель прогнозирования оказалась актуальной для принятия решений:

  • Должны ли мы импортировать энергию для удовлетворения внутренних потребностей?
  • Должны ли мы продолжать разработку нового производственного оборудования?

Бизнес-анализ

С целью предсказать не только общий энергетический баланс, но и вероятность сбоя производства энергии, мы с нетерпением ждали прогнозирования производства каждой энергии. Здесь мы столкнулись с гораздо более сложной задачей, так как нам нужно было изучить характеристики различных источников энергии.

Действительно, производство предсказать гораздо сложнее, поскольку существуют структурные тенденции в структурах источников производства. Более того, некоторые из них организуются и планируются людьми, в то время как другие зависят от изменчивых факторов, таких как погода. Таким образом, нам пришлось расширить наше исследование, чтобы понять такое поведение и построить наши рассуждения, чтобы обдумать будущие прогнозы.

Основная цель заключается в том, что французское правительство уделяет большое внимание прекращению производства тепла, сокращению производства атомной энергии и развитию альтернативных источников, основанных на природных ресурсах, не содержащих ископаемых, таких как ветер, солнце или вода.

Поэтому мы искали планирование мощности для каждого из них, собирая информацию из всех возможных источников, в том числе связываясь с французским оператором системы электроснабжения RTE, чтобы иметь под рукой график остановки объектов. Что касается атомной энергетики, нам нужно было понять, насколько сложным является техническое обслуживание и как это может повлиять на планирование производства в случае длительных периодов бездействия.

Емкость это одно, но только наличие потенциальной выходной мощности не дает полной картины. Мы углубились в набор данных, чтобы извлечь эффективность источников энергии. Мы выяснили, что природные ресурсы имеют довольно низкую выходную мощность (всего от 20 до 40%) по сравнению с атомными или тепловыми производственными мощностями, которые могут работать до 90% полного рабочего дня.

По сути, чтобы гарантировать, что мы вырабатываем достаточно энергии за счет солнца или ветра, чтобы компенсировать возможную остановку производства тепла, мы должны не только сравнивать мощности, но и учитывать, что разные источники энергии не имеют одинаковой эффективности.

Наука о данных

Теперь пришло время для некоторых прогнозов!

Стратегия прогнозирования

Цель состояла в том, чтобы спрогнозировать отрицательный энергетический баланс, чтобы соответствовать временам, когда производства недостаточно для покрытия спроса на энергию. Мы определили, что это может быть достигнуто двумя способами:

  • Во-первых, баланс, представляющий собой разницу между временными рядами производства и потребностей, сам по себе является временным рядом. Цель состояла в том, чтобы сосредоточиться на сигнале баланса только для предсказания.
  • Во-вторых, мы считали, что прогнозирование каждого отдельного производственного сигнала, уменьшенного с прогнозированием сигнала потребления, приведет к прогнозированию баланса. Это сумма прогнозов.

Модель прогнозирования

Из нашего курса нам пришлось перейти к модели SARIMAX, которая предназначена для прогнозирования временных рядов.

SARIMAX учитывает корреляцию с прошлыми элементами и скользящим средним сигналом. Кроме того, X обозначает регрессор внешних признаков.

Внешние функции

Из наших первых прогнозов мы столкнулись с ограниченными возможностями SARIMAX для решения таких сложных сигналов. Действительно, если общий тренд довольно повторяющийся, детализированные сигналы действительно сложны с большим количеством «локальных» отклонений.

Использование SARIMAX X factor, например. внешняя особенность, оказалась ключевым фактором успеха, чтобы получить хотя бы результат от SARIMAX.

Как показано, существует сильная корреляция между энергией и погодой. Таким образом, мы приступили к разработке функций, чтобы предоставить их в качестве входных данных для SARIMAX, чтобы, как мы надеемся, обеспечить удовлетворительные прогнозы энергетических сигналов.

Для этой цели мы использовали другие открытые наборы данных:

  • SYNOP от французской национальной компании Météo France для записи метеорологических показателей
  • Количество человек на площадь

Что касается потребления, мы учитывали температуру в сочетании с плотностью населения, чтобы определить уровень отопления на единицу площади, поскольку это один из основных критериев, объясняющих сезонность сигнала спроса на энергию.

Что касается гидравлического производства, мы учитывали уровень дождя в сочетании с мощностью сооружений на единицу площади (плотины).

Из этой картинки мы узнали, что большая часть емкости находится там, где у нас есть горы. Эта мощность практически не росла последние 10 лет. Можно считать, что мы уже построили все сооружения для сбора воды и снега с гор. Возможно, не существует возможности для улучшения с разумной стоимостью, поскольку строительство таких объектов может быть очень дорогим.

Для солнечной энергии мы смешали данные средней облачности, продолжительности солнечного сияния в течение дня и среднего количества осадков, чтобы построить наш регрессор.

Оказалось, что мощность и потенциал соответствуют одним и тем же направлениям, и это здорово. Это можно объяснить очень простыми факторами. Как компании, так и частные лица могут воспользоваться финансовой помощью французского правительства. Следствием этого является то, что люди инвестируют в зависимости от их местного положения с солнцем.

Наконец, мы создаем последнюю функцию или регрессор для генерации ветра.

Мы были поражены несоответствием картины: мощности вложены не в то место. Практически нет оборудования там, где у нас самый высокий потенциал (самый ветер).

Мы можем попытаться объяснить это несоответствие высокими политическими и социальными последствиями, связанными с установкой ветряков. Это оборудование не очень хорошо воспринимается людьми, которые не заинтересованы в том, чтобы иметь его в своей загородной панораме.

Что касается принятия решений, этот анализ может дать соответствующую информацию, чтобы улучшить области, в которых какой тип возобновляемой энергии следует использовать больше всего. Но поскольку текущая ситуация не способствует хорошим инвестициям, возможно, придется изменить бизнес-модель, чтобы обеспечить более эффективное улучшение.

Особенности производства атомной и тепловой энергии

Основываясь на выводах о том, что производство планируется людьми и что спрос на самом деле не меняется из года в год, мы сделали предположение, что это производство повторяется из года в год. Директора заводов могут немного регулировать выходную мощность в зависимости от спроса «по местному времени».

Таким образом, мы оценили, что эти производства на самом деле не связаны с предсказаниями, и мы рассмотрели их в наших моделях как повторяющийся паттерн. Мы строим его со средним выходом за период набора данных.

Чтобы проверить это предположение, мы сравнили его с реальной выходной мощностью.

Стандартизация

Используя анализ данных и визуализацию данных, мы показали, что мощность ветровой и солнечной энергии растет в течение периода набора данных. Конечно, с большей мощностью у нас также есть рост производства с 2013 по 2021 год.

Чтобы нормализовать наш набор данных до прогнозирования, мы просто разделили выходную мощность на мощность, поэтому мы рассчитали эффективность производства, которая всегда находится в диапазоне от 0 до 1.

Вывод модели

К сожалению, на этом этапе моделирования мы не смогли получить каких-либо хороших результатов. Прогноз был далек от удовлетворения из-за некоторых больших разрывов между реальными и предсказанными сигналами.

Поэтому мы приступили к этапу оптимизации, чтобы изучить все возможные способы улучшения наших моделей SARIMAX.

Гладкий сигнал набора данных

Это лучший рычаг, чтобы помочь SARIMAX сократить разрыв. К сожалению, это приводит к тому, что мы теряем цель соответствовать отрицательному энергетическому балансу.

Действительно, сглаживание означает удаление пиков из набора данных, поэтому мы теряем критические события для нашего исследования.

Поэтому нам пришлось придерживаться довольно маленьких шагов в нашей модели, максимум 3 часа, 1 день и 1 неделя.

Преобразование Фурье

Это основано на том факте, что любой сигнал может состоять из суммы синусоидальных сигналов, имеющих разные фазы и амплитуды.

Затем мы могли бы разложить наш сигнал, чтобы отфильтровать его и сохранить основные синусоидальные компоненты.

Это была реальная возможность улучшить нашу модель SARIMAX, поскольку это уменьшило ее сложность, не позволяя нам сглаживать данные при сохранении шага по времени. В машинном обучении это можно рассматривать как уменьшение размеров.

Результаты

Прогнозирование одного сигнала баланса

К сожалению, нам не удалось улучшить наши модели SARIMAX.

Выходы были совершенно одинаковыми, независимо от внешних регрессоров и уменьшения сигнала.

Мы пришли к выводу, что SARIMAX недостаточно мощен для разложения и прогнозирования таких сложных сигналов. Мы узнали, что SARIMAX ограничен примерно одним сезонным периодом, в то время как в реальном мире временные ряды могут быть намного сложнее.

Лучше всего сэкономить время, используя X-фактор, управляя дополнительной сезонностью, используя только базовый синусоидальный сигнал с соответствующей периодичностью. Нет необходимости в сложных функциях для улучшения предсказания.

Хорошим советом является использование преобразования Фурье для фильтрации и уменьшения сложности сигнала. Это приводит к прямому результату без X-регрессоров. Это самый простой способ получить результат от SARIMAX, лучше, чем сглаживание сигнала, который теряет слишком много информации по сравнению с исходным сигналом.

Баланс как сумма предсказаний сигнала

Мы получили гораздо лучший результат при рассмотрении разрыва между суммой прогнозов и реальным сигналом по сравнению с прямым прогнозом баланса (предыдущий результат).

Вся тяжелая работа того стоила!

Ключевым моментом было управление каждым сигналом по отдельности, попытка понять, как он работает, и выделение времени для поддержки прогнозов с помощью релевантной и зависимой бизнес-информации.

Это кажется очевидным, но, в конце концов, мы просто разложили сложность сигнала баланса на сигналы, которые можно предсказать сами по себе.

Самая большая проблема заключается в том, что выход сглажен, поэтому мы не можем сопоставить то, что важно в нашем случае: пики, создающие отрицательный энергетический баланс.

Для прогнозирования ветровой энергии мы использовали линейную регрессию вместо SARIMAX. Действительно, производство энергии ветра еще более непредсказуемо. Сигналы могут иметь общую сезонность, поскольку мы можем наблюдать определенное количество энергии весной и осенью, в то время как теплый воздух может столкнуться с холодным воздухом. Но «местное время» действительно случайное, совсем не стабильное с огромными пиками. В таком случае это было гораздо уместнее.

Обучение

SARIMAX подходит для простых сигналов, но пока не для предсказания реальных случаев.

Преобразование Фурье — довольно интересный рычаг, который можно использовать для уменьшения размерности и помощи в прогнозировании.

Линейная регрессия — лучшая модель при управлении стохастическими сигналами.

Понимание бизнеса и упорная работа по созданию функций для поддержки линейной регрессии могут дать надежду на хорошие результаты.

Качество функций — еще один ключевой фактор, который следует учитывать. Действительно, мы работали с открытыми данными, которые не совсем точны. Здесь мы видим возможности для улучшения.

На картинке ниже синие графики показывают места, где ведется мониторинг ветра, а белые графики показывают места ветряных генераторов. Для каждой области у нас есть только пара записей, чтобы указать ветер для всей области. Конечно, пока генераторы находятся на расстоянии 100 км и не подвергаются одинаковому воздействию, это приводит только к грубым приближениям. Актуальнее было бы считать погоду для каждого генератора в отдельности, так мы имели бы более точный результат.

Делать прогнозы энергии еще сложнее, поскольку это также зависит от прогноза погоды.

Для временных рядов следующим шагом будет изучение того, как глубокое обучение может улучшить прогнозы.

Спасибо Datascientest за это замечательное путешествие по изучению науки о данных.