12 вопросов, которые следует задать перед запуском проекта ИИ

12 вопросов, которые следует задать себе перед запуском проекта ИИ

Любое путешествие начинается с проверки наличия у вас всего, что может понадобиться во время поездки, даже если это путешествие по созданию решения на основе искусственного интеллекта.

Ниже мы изложим двенадцать ключевых вопросов, которые стоит задать, прежде чем приступить к реализации проекта ИИ:

Давайте подробнее рассмотрим каждое соображение.

Предварительная оценка

Прежде всего, вам необходимо убедиться, является ли искусственный интеллект правильным выбором для вашего проекта или конкретной задачи.

1. Применим ли ИИ в этом случае?

Вам необходимо четко определить цели для поставленной задачи и посмотреть, можно ли их достичь с помощью ИИ или без него. Есть два возможных сценария, когда использование ИИ будет нецелесообразным:

Желаемых результатов можно достичь без использования ИИ. В этом случае использование ИИ ради ИИ не будет разумным выбором. Вместо этого вам следует поискать другие случаи, когда внедрение искусственного интеллекта может принести значительную пользу вашему бизнесу.
Существующие технологии искусственного интеллекта не могут решить поставленную задачу. Инвестировать время и деньги в исследование революционных решений искусственного интеллекта рискованно и не гарантирует положительных результатов. Поэтому ради устойчивости бизнеса лучше всего применять известные возможности ИИ только для решения конкретных задач и оставить научные эксперименты исследователям.

Между тем, золотой случай для запуска проекта ИИ — это когда ИИ либо является единственной технологией, которую вы можете использовать для решения поставленной задачи, либо он работает быстрее или с меньшими затратами, чем любые альтернативы, не связанные с ИИ.

2. Какие варианты реализации?

Далее вам необходимо оценить доступные варианты реализации. Наиболее распространенные сценарии:

Развертывание готовых алгоритмов или моделей ИИ. Этот подход можно использовать, когда готовые решения могут решить вашу задачу без какой-либо настройки алгоритма или модели. Если задача слишком сложна, чтобы ее можно было решить одним готовым решением, можно попробовать разбить ее на несколько более простых и поискать подходящие алгоритмы для каждой из этих подзадач.
Настройка готового решения. Чаще всего готовый набор данных или предварительно обученная модель изначально не соответствует целям вашего проекта. В этом случае вам потребуется внести некоторые корректировки перед использованием готовых решений или компонентов ИИ, например улучшить маркировку данных в наборе данных, расширить набор данных новыми данными или обучить готовую модель на пользовательских данных.
Разработка индивидуального решения для искусственного интеллекта. Этот сценарий довольно сложен и дорог и обычно возникает, когда вы работаете над сложными, беспрецедентными сценариями использования. Однако даже самые уникальные и сложные проекты ИИ обычно можно разделить на несколько более мелких задач. И среди этих более мелких задач лишь немногие действительно потребуют создания собственного ИИ с нуля.

Вы можете попробовать выбрать один сценарий, который принесет вам наилучшие результаты по более низкой цене, или объединить эти подходы для реализации различных частей вашего проекта ИИ.

3. Каковы юридические ограничения на использование ИИ?

И последнее, но не менее важное: убедитесь, что нет никаких юридических или нормативных ограничений, которые мешают вам использовать ИИ в своем проекте.

Здесь мы можем выделить несколько ключевых аспектов, на которые следует обратить внимание:

Конфиденциальность данных. Поскольку решения искусственного интеллекта часто работают с реальными данными, ваша задача — обеспечить, чтобы использование данных было согласованным и чтобы вся личная информация была должным образом анонимизирована.
Безопасность данных. Для данных, которые невозможно анонимизировать, следует установить дополнительные меры безопасности. Ваша команда разработчиков должна убедиться, что никто не сможет получить доступ, обработать или изменить конфиденциальные данные вашего ИИ без надлежащего разрешения.
Объяснимость ИИ. Во многих странах существуют особые требования к качеству и объяснимости решений ИИ. Для некоторых отраслей, таких как финансы или здравоохранение, требования могут быть более жесткими, чем для других. Все это делается для того, чтобы решения искусственного интеллекта черного ящика, в которых отсутствует прозрачность процессов принятия решений, не были склонны к предвзятости. Требования, которые следует учитывать, включают Закон об алгоритмической ответственности 2019 года, Руководства по этике для надежного искусственного интеллекта и Общие правила защиты данных.
Условия использования. При развертывании готового ИИ-компонента или решения обратите особое внимание на условия, регулирующие его использование. Некоторые компоненты и модели ИИ с открытым исходным кодом могут иметь ограничения относительно области использования или территории, на которой они используются, этические ограничения и т. д.

Убедитесь, что нет никаких юридических ограничений на использование технологий искусственного интеллекта в вашем проекте, и разрабатывайте свое решение с учетом безопасности и конфиденциальности данных.

Финансовые риски

Как только вы определите, что юридических ограничений на использование ИИ нет, обязательно оцените возможные финансовые риски вашего проекта.

4. Превышает ли потенциальная прибыль от ИИ затраты на его внедрение?

Существует множество факторов, которые могут повлиять на стоимость функциональности ИИ:

Требования к программному обеспечению. Конечная цель, сложность и требования к производительности разрабатываемого программного обеспечения оказывают прямое влияние на выбор данных, технологий и навыков для проекта и, следовательно, на бюджет проекта.
Тип используемых данных. Работа со структурированными данными обычно обходится дешевле, чем с неструктурированными данными.
Производительность алгоритма ИИ. Создание алгоритма ИИ с высоким уровнем точности и производительности обычно требует проведения нескольких этапов обучения и настройки, что приводит к увеличению затрат.

Но настоящая задача состоит в том, чтобы гарантировать, что первоначальные затраты на внедрение ИИ не превысят его потенциальную окупаемость инвестиций (ROI). Особенно это актуально для проектов, требующих разработки ИИ-решения с нуля. Проведите глубокое исследование возможности реализации решения, чтобы определить, можно ли его разработать и по какой цене.

5. Есть ли готовые решения, которые вы можете использовать?

Как мы обсуждали выше, обычно есть готовое решение, которое вы можете использовать в своем проекте — либо из коробки, либо с некоторой доработкой. В Apriorit мы имеем большой опыт улучшения и ускорения наших проектов в области искусственного интеллекта с помощью готовых к использованию наборов данных и моделей искусственного интеллекта. В одном из наших проектов мы использовали модель сверточной нейронной сети (CNN) Inception V3, предварительно обученную на наборе данных ImageNet, для обнаружения определенных действий в видеопоследовательностях. Подробнее об этом проекте можно прочитать в наших публикациях в блогах Использование модифицированного Inception V3 CNN для обработки и классификации видео и Применение долгосрочной кратковременной памяти для классификации видео. А чтобы узнать больше о работе с изображениями, прочтите нашу статью, в которой объясняются возможности распознавания изображений с помощью ИИ.

В некоторых случаях использование готовых решений может помочь сократить расходы и ускорить разработку продукта. Однако настройка готового решения также может оказаться дорогостоящей, поэтому вам также необходимо учитывать этот риск.

6. Какие элементы, не относящиеся к ИИ, также необходимы?

Некоторые эксперты подчеркивают, что элементы, не относящиеся к ИИ, могут оказаться даже дороже, чем сам ИИ, по крайней мере, если оценивать стоимость ИИ со стоимостью специалистов, навыки которых необходимы для его создания. Например, до 70% бюджета проекта может уйти не на сам функционал ИИ, а на организацию правильного хранения и управления данными.

Наиболее важные элементы, не связанные с ИИ, которые необходимо учитывать при планировании бюджета, включают:

Инфраструктура проекта искусственного интеллекта — системы хранения и управления данными, сети, оркестрация и конвейерная обработка.
Меры защиты данных — архитектура, ориентированная на безопасность данных, инструменты управления доступом к данным.
Разработка API. Чтобы расширить возможности развертывания вашего решения, важно создать для него должным образом защищенный и хорошо работающий API.

Требуемые ресурсы

Навыки, технологии, оборудование и данные являются основой любого решения искусственного интеллекта. Отсутствие любого из этих четырех факторов может поставить под угрозу весь проект. Поэтому о них нужно позаботиться заранее, начиная с ответов на следующие вопросы:

7. Какие навыки и таланты вам нужны для этого проекта?

Диапазон навыков и компетенций, необходимых для создания адекватного решения ИИ, во многом зависит от целей проекта. Однако в основной набор специалистов обычно входят:

Бизнес-аналитик, чтобы точно определить потребности бизнеса и требования клиентов, имеющие отношение к вашему проекту.
Инженеры ИИ для создания алгоритмов и моделей ИИ.
Инженеры данных для создания надежных и безопасных конвейеров данных.
Разработчики программного обеспечения для создания компонентов решений, не связанных с искусственным интеллектом.
Инженеры DevOps для создания стабильной инфраструктуры и обеспечения плавной интеграции ваших моделей искусственного интеллекта.
Специалисты по обеспечению качества, которые обеспечат постоянное тестирование и улучшение вашего решения искусственного интеллекта.

Набор необходимых специалистов и знаний может меняться по мере развития вашего проекта. Вам также могут понадобиться консультанты, не связанные с искусственным интеллектом, чтобы убедиться, что ваш продукт полностью соответствует ожиданиям конечных пользователей.

8. Какие технологии и оборудование необходимы?

Техническая жизнеспособность — важнейшая часть любого проекта искусственного интеллекта. Ваша команда разработчиков ИИ должна изучить, какие технологии, оборудование и данные необходимы, чтобы убедиться в осуществимости проекта.

Основные вещи, которые следует проверить перед началом разработки, включают в себя:

Готовность алгоритмов ИИ
Наличие предварительно обученных моделей ИИ.
Наличие наборов данных со структурированными и неструктурированными данными.
Доступ к необходимому оборудованию искусственного интеллекта

Если не позаботиться заранее, отсутствие необходимого оборудования и технологий может поставить под угрозу разработку и запуск вашего продукта.

Например, мощность вашего оборудования можно увеличить с помощью дополнительных инструментов. Вы можете узнать больше о том, как мы использовали Google Colaboratory для этой задачи, в статье ниже.

9. Каковы ваши требования к данным?

Чтобы лучше понять ваши потребности в данных, вы можете использовать иерархию потребностей в науке о данных, впервые предложенную Моникой Рогати. Как и в классической иерархии потребностей Маслоу, вам нужно начать с самого низа и медленно двигаться вверх, удовлетворяя каждую потребность в данных вашего проекта ИИ.

Если вы попытаетесь начать с вершины этой пирамиды, вы можете оказаться в ситуации, когда ваш ИИ окажется неэффективным, предвзятым и неэффективным из-за отсутствия качественных данных.

Как вы оцениваете качество данных?

Есть много способов определить, хорошего ли качества данные, которые вы собираетесь использовать в проекте ИИ. Мы предлагаем обратить наибольшее внимание на следующие четыре критерия:

1) Достаточное количество

Оцените, какие источники данных у вас есть, сколько данных вы можете из них получить и какого качества. Ваша цель — получить достаточно данных для обучения, проверки и тестирования вашей модели. Прежде чем приступить к созданию проекта ИИ, рекомендуется разделить набор данных на три части, чтобы, например, не смешивались данные обучения и тестирования.

Если у вас недостаточно данных для поддержки вашей модели ИИ, рассмотрите возможность умножения уже имеющихся данных с помощью методов увеличения. Эти методы позволяют расширять наборы данных для обучения модели ИИ путем внесения незначительных изменений в существующие данные. Мы использовали этот подход, когда нам нужно было повысить точность модели искусственного интеллекта для классификации типов рака кожи.

2) Надежные источники

Происхождение ваших данных напрямую влияет на их качество и, следовательно, на производительность вашего ИИ-решения. Важно стремиться к наиболее актуальным ресурсам, таким как записи пациентов для решений в области здравоохранения или сельскохозяйственные спутниковые снимки для сельскохозяйственных проектов.

Вы можете использовать данные, поступающие как из первичных, так и из вторичных источников.

Первичными источниками являются источники, исходящие из вашей собственной организации, например, записи платформы управления взаимоотношениями с клиентами или системы управления ресурсами предприятия.

Вторичные источники включают ваших деловых партнеров и третьих лиц, коммерческие базы данных и общедоступные наборы данных. Данные из этих источников лучше всего подходят для повышения качества данных из ваших первичных источников.

3) Правильная маркировка

Системы искусственного интеллекта изучают данные с помощью меток и тегов. Модель, обученная на правильно размеченных данных, может научиться обнаруживать те же закономерности в неструктурированных данных без тегов. И чем точнее разметка обучающих данных, тем выше точность ваших алгоритмов и моделей.

Маркировка данных является обязательной для проектов ИИ, использующих данные из первичных источников. Вашей команде по искусственному интеллекту также может потребоваться улучшить маркировку готовых наборов данных, чтобы теги соответствовали целям ваших алгоритмов. Данные можно маркировать вручную или с помощью специального программного обеспечения.

При создании системы искусственного интеллекта, способной автоматически обнаруживать, сегментировать и измерять фолликулы на ультразвуковых изображениях мы привлекли терапевтов на стороне клиента, чтобы обеспечить высокую точность разметки данных и с высокой точностью составить набор данных. и отличное качество. В подобных случаях данные следует обрабатывать и проверять вручную, чтобы обеспечить максимальную точность присвоенных меток.

В нашей статье Обнаружение действий с использованием глубоких нейронных сетей: проблемы и решения вы можете узнать больше о нашем опыте работы с инструментами аннотаций для маркировки данных для нашего специального набора данных для обучения ИИ. Также ознакомьтесь с нашей статьей об использовании глубокого обучения в автомобильной промышленности.

4) Без предвзятости

Решения машинного обучения могут давать неточные и несправедливые результаты, если они предвзяты. А данные являются одним из трех основных источников предвзятости в ИИ, наряду с алгоритмами и целями ИИ.

Трудно сохранить ваши данные на 100% свободными от предвзятости. Но вам нужно приложить усилия, чтобы уровень предвзятости в вашей модели ИИ был как можно ниже.

Смещение данных может быть статистическим или когнитивным. Первый связан с использованием нерелевантных и нерепрезентативных данных, которые имеют мало общего с данными, с которыми ваше решение будет работать после выпуска. Когнитивная предвзятость обычно проникает в ваше программное обеспечение на этапах отбора или маркировки данных, отражая заблуждения и предрассудки, характерные для конкретного общества. В результате вы получаете несбалансированный набор данных, в котором определенные объекты перепредставлены или недопредставлены.

Дальнейшее обслуживание

Успешный выпуск решения ИИ — это только половина дела, поскольку вам необходимо постоянно поддерживать надлежащую производительность вашей модели ИИ, чтобы ваши клиенты были удовлетворены в долгосрочной перспективе. А поскольку поддержка и обслуживание также требуют значительных ресурсов, вам необходимо планировать эту деятельность задолго до начала фактической разработки вашего решения ИИ.

Вот несколько аспектов, на которые мы рекомендуем обратить внимание:

10. Что делать после релиза?

Вам необходимо сделать мониторинг и обслуживание вашего решения искусственного интеллекта непрерывным процессом. Только тогда вы сможете обеспечить надлежащую производительность, надежную защиту данных и высокий уровень удовлетворенности клиентов.

Ключевые мероприятия после выпуска включают в себя:

Мониторинг производительности для быстрого обнаружения и устранения мелких проблем.
Постоянный контроль качества, чтобы предотвратить снижение производительности вашей модели ИИ.
Регулярное переобучение на новых наборах данных, чтобы предотвратить дрейф модели.

Помимо этих действий, важно уделять особое внимание уровню предвзятости и точности вашей модели ИИ.

11. Как вы можете защитить свои решения от появления новых предубеждений?

Поскольку модели ИИ часто переобучаются с использованием новых данных после первоначального выпуска, важно продолжать следить за их предвзятостью. С технологической точки зрения проблему предвзятости можно решить на двух уровнях:

Алгоритмы. Следуйте отраслевым и государственным рекомендациям, чтобы повысить прозрачность и справедливость ваших алгоритмов. Перекрестно проверьте их по различным наборам данных, чтобы обнаружить возможные искажения.
Данные. Повышайте качество и разнообразие данных в своих наборах данных и тестируйте свои модели, используя данные, отличные от данных, на которых они обучались.

Легче предотвращать и исправлять предвзятости в решениях, основанных на объяснимых алгоритмах ИИ. Но точность моделей «черного ящика» также можно проверить и улучшить.

12. Как вы можете обеспечить постоянную точность вашего решения искусственного интеллекта?

Как и в случае с любым традиционным программным обеспечением, крайне важно обеспечить бесперебойную работу вашего ИИ-решения при различных нагрузках и надлежащую защиту всех ценных данных. Но еще важнее постоянно проверять и повышать точность вашей модели.

Мы уже обсуждали, что некоторые решения ИИ представляют собой «черный ящик», а это означает, что трудно или невозможно объяснить, как модель пришла к определенному выводу. Однако есть несколько показателей, которые вы можете использовать, чтобы гарантировать, что даже модели «черного ящика» работают должным образом:

Точность классификации: количество правильных прогнозов сравнивается с общим количеством прогнозов, сделанных вашей моделью.
Средняя абсолютная ошибка, которая оценивает разницу между прогнозом и истинным значением конкретного наблюдения.
Логарифмическая потеря или потеря журнала, которая оценивает точность классификатора данных.
И более

В зависимости от специфики вашего ИИ-проекта вы можете использовать разные метрики и подходы для оценки и повышения точности ваших алгоритмов и моделей.

Подробнее о запуске нового AI-проекта читайте в полной статье в нашем блоге.