Большие данные не всегда полезны для решений ИИ!

В этой статье я поделюсь некоторыми советами по разумной подготовке к удивительным алгоритмам, которые может предложить ИИ. В последние десятилетия нефтегазовые компании собирали огромные объемы данных. К сожалению, не все собранные данные оказались полезными. В некоторых алгоритмах ИИ цель состоит в том, чтобы извлечь уроки из прошлых данных, чтобы принимать более эффективные решения в будущем, например, покупать правильные активы для производства и использовать правильное оборудование. Когда я отношусь к обучению, я отношусь к тем же процессам обучения, что и у людей. Столкнувшись с проблемой, мы пытаемся разобраться в уже имеющейся у нас информации о проблеме, чтобы решить аналогичные проблемы в будущем.

Ситуации, когда информация вводит нас в заблуждение

  1. Какие-то важные данные для понимания проблемы отсутствуют? (Важные датчики не установлены, рабочие на поле не вводят данные, которые были необходимы)
  2. Собранные данные были фактически неверны во многих случаях? (Например, плохие датчики, работники поля, которые случайно ввели вручную неправильные данные)
  3. Собранные данные каждый раз собирались на основе разной терминологии или на основе разных единиц измерения? Разве это не беспорядок?

Сейчас я покажу простой пример, который поможет вам понять, к чему может привести отсутствие достоверной информации. Представьте, что вам показывают новую математическую операцию, отмеченную знаком @, со следующей информацией.

  • 2@2 = 4
  • 1@1 = 1
  • 2@1 = 2

Теперь вас просят решить следующую задачу

  • 4@2 = ?

На основании этих данных можно подумать о паре вариантов

  1. @ на самом деле *, потому что 2 * 2 = 4, 1 * 1 = 1, 2 * 1 = 2, имеет смысл, верно?
  2. Подождите, может быть, это означает степень, то есть ^, потому что 2² = 4, 1¹ = 1, 2¹ = 2

Теперь, если я добавлю больше информации, такой как 3@2 = 9, мы можем быть уверены, что @ не * и, скорее всего, будет ^.

Представьте, что у вас были бы только те данные, которые были представлены впервые, и вы бы решили использовать @, поскольку * вы бы сделали много неправильных ответов/решений в будущем. То же самое может произойти с любой проблемой, когда отсутствуют важные данные.

Вопросы, которые вы должны задать о своем бизнесе

  1. Собирает ли ваша компания существенные данные для решения проблемы, которую она стремится решить?
  2. Подумайте о проблеме, похожей на проблему с @, которая может возникнуть, когда собранные данные на самом деле неверны из-за неисправных датчиков или других проблем. (напоминаю, что в задаче с @ данные были точными, но не хватило данных, чтобы реально понять задачу)

Советы по сбору данных о качестве

Теперь я закончу некоторыми важными советами, которые помогут вам собирать более качественные данные для обучения алгоритмов, но я уверен, что вы поняли суть из того, что вы прочитали до сих пор:

  1. Собирайте данные автоматически, а не вручную, так как это, вероятно, будет более точным.
  2. Убедитесь, что вы собираете данные с использованием одной и той же терминологии и одних и тех же единиц измерения. Когда вы имеете в виду глубину колодца, это только вертикальная глубина или вертикальная и горизонтальная глубина?
  3. Убедитесь, что вы используете хорошие датчики. Некоторые датчики сломаны? Датчики собирают данные в скважине или на поверхности?
  4. Собираете ли вы все данные, которые необходимы для решения проблемы. Например, собираете ли вы все данные, необходимые для оценки производительности скважины? Подумайте обо всех данных, которые помогут вам решить проблему и принять лучшее решение.

Вот и все!

Данные очень важны для создания ИИ, сбор более качественных и чистых данных всегда должен быть одним из ваших основных направлений переоценки ИИ. Сбор качественных данных, скорее всего, важнее, чем алгоритм, который используется для принятия правильных решений. Если данные плохие, ни один алгоритм не сможет их исправить. Помните, что больше данных не обязательно означает более качественные данные. Оставьте сообщение здесь для любой информации о наших инструментах искусственного интеллекта или каких-либо идеях.

Рой Шабшин является соучредителем Unsist, технологической компании со штаб-квартирой в Калгари, которая предоставляет продукты и услуги по оптимизации для нефтегазовой отрасли с помощью инноваций и опыта в области искусственного интеллекта. Узнайте больше в социальных сетях!