Автор Майкл Бертольд

Впервые опубликовано в InfoWorld

Последние 16 месяцев показали, насколько ценной может быть наука о данных, но при этом продемонстрировали ее ограничения. Ожидайте больших успехов в наступающем году.

2020 год можно назвать годом роста науки о данных. Организации всех видов значительно активизировали внедрение приложений, ориентированных на данные, и обратились к науке о данных для решения своих проблем - с разной степенью успеха. В ходе этого процесса науке о данных все чаще приходилось демонстрировать свою зрелость и доказывать свою реальную ценность, демонстрируя, что она действительно работает в производственной среде.

Возникновение смертоносной глобальной пандемии подорвало разработки - не все из них хорошие - которые с годами разрослись, и их стало трудно поддерживать, корректировать или улучшать сегодня. COVID-19 потребовал быстрого анализа и обмена огромными объемами данных. Прогностические модели запускались и обновлялись с новой актуальностью в постоянно меняющихся условиях, и весь мир оценивал их точность и целостность.

Последние 16 месяцев показали, насколько ценной может быть наука о данных, но при этом выявили ее ограничения. В 2020 году возникло множество проблем с точки зрения надежности, адаптируемости и максимальной полезности науки о данных, которые необходимо будет решить в 2021 году.

Давайте посмотрим на ключевые рычаги.

Наука о данных в 2020 году

Такое распространение науки о данных, хотя и захватывающее, ошибочно предполагало, что эта область каким-то образом улажена. Напротив, наука о данных остается во многом «новой» областью, стремительно внедряющейся в инновации.

Если следовать за циклом ажиотажа, наука о данных, похоже, станет мейнстримом в 2020 году, когда поставщики по всему миру будут использовать ИИ. Казалось, что к каждому продукту или услуге каким-то образом привязан искусственный интеллект, как бы слабо он ни был. Таким образом, ожидания выросли до невероятных высот, и компании ожидали, что интеллектуальные решения для обработки данных решат все их проблемы. Наука о данных просто не работает.

К счастью, сейчас люди уходят от шумихи и задают правильные вопросы, чтобы понять, чего наука о данных может и чего не может. Таким образом, науке о данных теперь уделяется внимание, исходя из ее качества и окупаемости инвестиций, которые возможны при правильном построении.

Проблемы адаптации

Одна из фундаментальных проблем науки о данных всегда заключалась в том, чтобы найти способ многократно и надежно снимать модель с момента создания и запускать ее в производство. Это может значительно помешать реализации ROI - что, безусловно, имело место после нападения COVID-19. Рассмотрим все модели поведения, которые изменились за время пандемии. Модели машинного обучения, созданные до COVID-19, как минимум, должны были пройти как минимум обновление, если не полную переработку и переподготовку, чтобы учесть эти изменения.

В зависимости от проблемной области и того, что модели должны были решить, новая реальность может радикально отличаться от мира, существовавшего до COVID, настолько, что миллионы точек данных, на которые опирались для понимания, разрушаются, потому что старые базовые предположения больше не держать. Необходимо было обновить модели, чтобы они могли включать новые данные и адаптироваться к новой реальности, и пришлось пересмотреть весь процесс от создания науки о данных до производства.

Поскольку это традиционно было довольно сложно сделать, и из-за того, что компании были внезапно вынуждены довольно быстро пересматривать модели, строгость и частота испытаний моделей снизились. Вместо этого модели создавались в спешке без проверки. Это в некоторой степени подорвало доверие к науке о данных.

2020 год высветил разрыв между созданием надежных, проверенных моделей науки о данных и развертыванием готовых к производству моделей, которые впоследствии могут быть изменены по мере необходимости без воссоздания колеса. К счастью, мы начинаем видеть новые подходы, которые устраняют этот пробел по мере того, как год подходит к концу.

Предвзятость в моделях ИИ

Еще одна проблема, поразившая в основе достоверности и полезности науки о данных, - это предвзятость. Социальная справедливость выдвинулась на первый план в 2020 году. Естественной реакцией было попытаться устранить предвзятость везде, где это возможно. А поскольку каждая компания превратилась в компанию, занимающуюся ИИ, возникла тенденция к устранению предвзятости в моделях ИИ - задача, которая по своей сути является проблематичной.

Часто, когда мы устраняем предвзятость из моделей науки о данных, когда мы делаем их «недискриминационными», мы ослабляем результаты и, в конечном итоге, ценность моделей. Также существует опасность того, что, когда один компонент удаляется из модели науки о данных, появляется что-то еще, в результате чего систематическая ошибка не устраняется полностью, а просто заменяется другой разновидностью предвзятости.

Снижение предвзятости модели ИИ - важный вопрос, поскольку наука о данных все чаще используется для принятия решений, и мы не хотим, чтобы эти решения были предвзятыми или несправедливыми. Как мы можем создавать и внедрять науку о данных этичным способом? Модель должна быть понятной, доказуемой и проверяемой. Это, несомненно, область, которая будет изучена более глубоко в ближайшие месяцы и годы.

Наука о данных в 2021 году и далее

За последний год были достигнуты значительные успехи в выявлении проблем, сдерживающих науку о данных. По мере того, как цикл ажиотажа вокруг науки о данных заканчивается, эта область может стать более серьезной и сосредоточиться на инновациях и решении проблем.

Прорыв в производстве

Возможно, самая захватывающая возможность для науки о данных - это импульс, стоящий за подходом интегрированного развертывания. С повсеместной доступностью технологий, позволяющих сократить разрыв между созданием и производством, специалистам по данным больше не придется переводить между несколькими различными технологиями. Это изменит правила игры, сэкономит время и разочарование и даст более точные результаты.

Поскольку перенос моделей из тестирования в производство становится намного проще и быстрее, наука о данных принесет гораздо большую отдачу от своих инвестиций множеству заинтересованных сторон, а не только специалистам по данным. Организации выиграют, если позволят различным группам получать и понимать информацию о данных.

Сотрудничество 2-го поколения

Ожидайте, что различные группы будут участвовать в создании и развитии науки о данных. Бизнес-аналитикам и инженерам необходимо работать с специалистами по обработке данных, чтобы все они работали вместе, чтобы сделать это правильно. Каждая группа предлагает разные точки зрения на таблицу, что делает науку о данных более информативной, действенной и полезной для деловых целей.

Расширенное сотрудничество, необходимое специально для науки о данных, примет форму объединения моделей сотрудничества на разных уровнях для удовлетворения различных потребностей. Совместно используя компоненты, организации смогут объединить определенный опыт, объединение данных, оптимизацию машины или даже модуль отчетности и поделиться ими в рамках всей организации. Такое функциональное и целенаправленное сотрудничество в сочетании с соответствующей степенью автоматизации будет характеризовать следующий этап науки о данных.

Гибкая среда

Одним из последствий COVID-19 стало ускорение инициатив по цифровой трансформации, а облачные и гибридные среды стали гораздо более распространенными. Эта тенденция сохранится в течение 2021 года.

Организации не привязаны к одному облаку и даже не перемещают все свои данные в облако. Остается много локальных сред, и компании захотят включить в эту смесь инфраструктуру своих центров обработки данных, не покупая огромные вычислительные ресурсы, которые будут использоваться только время от времени.

Вместо этого они будут искать эластичность и возможность масштабировать гибридные среды вверх и вниз, чтобы удовлетворить потребности в ресурсах конкретных рабочих нагрузок. Таким образом, важно, чтобы наука о данных могла проводиться в различных средах и совместно использоваться в центре обработки данных и облаке, чтобы максимизировать эффективность. Появляются выдающиеся варианты, позволяющие расширить внедрение науки о данных по-новому.

Заключительные мысли

Зрелость науки о данных сегодня повсюду. Пространство между организациями, которые только начинают работать, и организациями, которые какое-то время находились в окопах, может немного сузиться в 2021 году, но пропасть будет сохраняться еще довольно долго.

Причина? Организации, которые успешно внедрили науку о данных и понимают ее возможности и ограничения, будут продолжать экспериментировать с использованием технологий с открытым исходным кодом, чтобы что-то опробовать. Если это сработает, они могут сделать его доступным для более широкого использования. Они смогут свободно играть и расширять границы, не истощая ИТ-бюджеты на интуитивном уровне, и именно здесь произойдут величайшие инновации.

В то же время наука о данных станет более доступной. Возможности low-code начинают привлекать все больше пользователей в масштабе предприятия, открывая новые возможности. Поскольку все больше людей понимают науку о данных и используют ее для решения проблем быстрее, чем когда-либо прежде, преимущества науки о данных будут демократизированы, и откроются новые возможности.

В 2020 году наука о данных прошла долгий путь, несмотря на то, что пандемия столкнулась с некоторыми ударами. Поскольку мы вынуждены сталкиваться с ключевыми проблемами науки о данных, происходят очень интересные достижения. 2021 год станет годом, когда наука о данных станет реальностью и глубоко и осмысленно продемонстрирует окупаемость инвестиций.