"Искусственный интеллект"

Зачем нам нужно сообщество ИИ, ориентированное на данные?

Место для обсуждения качества данных для науки о данных

Согласно Отчету о состоянии культуры данных Alation, 87% сотрудников объясняют низкое качество данных причиной того, что большинство организаций не могут осмысленно внедрить ИИ. Согласно исследованию, проведенному McKinsey в 2020 году, высококачественные данные имеют решающее значение для цифровых преобразований, позволяющих организации опережать конкурентов.

Поскольку платформы кодирования алгоритмов машинного обучения быстро развиваются, можно с уверенностью сказать, что самым дефицитным ресурсом в ИИ являются высококачественные данные в масштабе. Высококачественные данные являются узким местом.

Несмотря на несколько выводов о важности данных в индустрии ИИ, более 90% исследовательских работ в области ИИ по-прежнему ориентированы на модели. По словам Andrew Ng, это связано со сложностью создания больших наборов данных, которые могут стать общепризнанными стандартами.

Дело в том, что текущий порог, которого достигло машинное обучение, можно было преодолеть, только улучшив как качество, так и количество данных.

Так родилось движение, ориентированное на данные. Движение представляет собой недавний переход от сосредоточения внимания на моделировании к базовым данным, используемым для обучения и оценки моделей.

Сегодня мы рады объявить о создании сообщества ИИ, ориентированного на данные, — нового места для обсуждения качества данных для науки о данных.

Что такое дата-центрический ИИ и почему нас это должно волновать

Data-Centric AI — это подход к разработке AI, который рассматривает набор данных для обучения как центральную часть решения, а не модель.

Давайте сделаем шаг назад и разберемся в ажиотаже вокруг ИИ, ориентированного на данные. Придуманный Эндрю Нг, ИИ, ориентированный на данные, подчеркивает важность сосредоточения внимания на качестве данных, а не на алгоритмах и моделях. Далее, deeplearning.ai и Landing AI объявили о первом в истории конкурсе, ориентированном на данные. Это не только повысило осведомленность, но и перевернуло традиционные соревнования и попросило улучшить набор данных с учетом фиксированной модели.

Наконец, в 2021 году был проведен семинар по ИИ, ориентированный на данные, чтобы превратить сообщество DCAI в яркую междисциплинарную область, занимающуюся практическими проблемами данных. Несколько компаний приняли этот подход и добились результатов. Согласно Landing AI, некоторые улучшения от принятия ориентированного на данные подхода включают:

  • создавайте приложения компьютерного зрения в 10 раз быстрее
  • сократить время развертывания приложения на 65%
  • повышение выхода и точности до 40%

Со всеми доказанными преимуществами в отрасли запуск сообщества DCAI направлен на завершение недостающей части движения ИИ, ориентированного на данные.

3 столпа сообщества ИИ, ориентированного на данные

Хотя подход, ориентированный на данные, все еще развивается и может охватывать различные этапы жизненного цикла машинного обучения, мы определили наиболее значимые болевые точки среди специалистов по данным и намерены сосредоточиться на них в сообществе DCAI.

Мы называем их тремя столпами сообщества DCAI:

  • Профилирование данных. Понимание существующих данных — это первый шаг к их улучшению. Профилируйте свои данные с помощью нескольких строк кода. Попробуйте pandas-profiling!
  • Синтетические данные. Искусственно созданные данные сохраняют исходные свойства данных, что обеспечивает их ценность для бизнеса и соблюдение требований конфиденциальности. Попробуйте ydata-synthetic!
  • Разметка данных.Разве это не одна из ваших самых серьезных проблем с качеством данных? Сообщество DCAI культивирует содержательные дискуссии на эту и другие темы в нашем рабочем пространстве!

Кроме того, мы собрали (и продолжаем собирать) все полезные инструменты и ресурсы с открытым исходным кодом по трем направлениям в репозитории Awesome-Data-Centric-AI GitHub.

Бесконечные возможности вместе

«Чего ожидать?» — слышу ваш вопрос.

В Data-Centric AI Community мы считаем, что вместе мы можем активно изменить парадигму в сторону более качественных данных. Мы хотим собрать вместе экспертов из отрасли и способствовать содержательным беседам.

Ожидайте регулярного календаря событий и создания контента, который поможет вам лучше понять этот подход и позволит вам стать евангелистом ИИ, ориентированным на данные. Поскольку мы сотрудничаем с экспертами в отрасли, вы получите столь необходимое руководство непосредственно от тех, кто уже сделал то, что вы планируете сделать.

Ускорение ИИ с помощью улучшенных данных лежит в основе того, что мы делаем, и это сообщество с открытым исходным кодом — еще один шаг на пути к нашему осмысленному путешествию. Мы приглашаем вас стать частью этого — вместе возможности безграничны.

Фабиана Клементе является CDO в YData.

Ускорение работы ИИ с улучшенными данными.

YData предоставляет первую платформу разработки данных для команд Data Science.