"Искусственный интеллект"
Зачем нам нужно сообщество ИИ, ориентированное на данные?
Место для обсуждения качества данных для науки о данных
Согласно Отчету о состоянии культуры данных Alation, 87% сотрудников объясняют низкое качество данных причиной того, что большинство организаций не могут осмысленно внедрить ИИ. Согласно исследованию, проведенному McKinsey в 2020 году, высококачественные данные имеют решающее значение для цифровых преобразований, позволяющих организации опережать конкурентов.
Поскольку платформы кодирования алгоритмов машинного обучения быстро развиваются, можно с уверенностью сказать, что самым дефицитным ресурсом в ИИ являются высококачественные данные в масштабе. Высококачественные данные являются узким местом.
Несмотря на несколько выводов о важности данных в индустрии ИИ, более 90% исследовательских работ в области ИИ по-прежнему ориентированы на модели. По словам Andrew Ng, это связано со сложностью создания больших наборов данных, которые могут стать общепризнанными стандартами.
Дело в том, что текущий порог, которого достигло машинное обучение, можно было преодолеть, только улучшив как качество, так и количество данных.
Так родилось движение, ориентированное на данные. Движение представляет собой недавний переход от сосредоточения внимания на моделировании к базовым данным, используемым для обучения и оценки моделей.
Сегодня мы рады объявить о создании сообщества ИИ, ориентированного на данные, — нового места для обсуждения качества данных для науки о данных.
Что такое дата-центрический ИИ и почему нас это должно волновать
Data-Centric AI — это подход к разработке AI, который рассматривает набор данных для обучения как центральную часть решения, а не модель.
Давайте сделаем шаг назад и разберемся в ажиотаже вокруг ИИ, ориентированного на данные. Придуманный Эндрю Нг, ИИ, ориентированный на данные, подчеркивает важность сосредоточения внимания на качестве данных, а не на алгоритмах и моделях. Далее, deeplearning.ai и Landing AI объявили о первом в истории конкурсе, ориентированном на данные. Это не только повысило осведомленность, но и перевернуло традиционные соревнования и попросило улучшить набор данных с учетом фиксированной модели.
Наконец, в 2021 году был проведен семинар по ИИ, ориентированный на данные, чтобы превратить сообщество DCAI в яркую междисциплинарную область, занимающуюся практическими проблемами данных. Несколько компаний приняли этот подход и добились результатов. Согласно Landing AI, некоторые улучшения от принятия ориентированного на данные подхода включают:
- создавайте приложения компьютерного зрения в 10 раз быстрее
- сократить время развертывания приложения на 65%
- повышение выхода и точности до 40%
Со всеми доказанными преимуществами в отрасли запуск сообщества DCAI направлен на завершение недостающей части движения ИИ, ориентированного на данные.
3 столпа сообщества ИИ, ориентированного на данные
Хотя подход, ориентированный на данные, все еще развивается и может охватывать различные этапы жизненного цикла машинного обучения, мы определили наиболее значимые болевые точки среди специалистов по данным и намерены сосредоточиться на них в сообществе DCAI.
Мы называем их тремя столпами сообщества DCAI:
- Профилирование данных. Понимание существующих данных — это первый шаг к их улучшению. Профилируйте свои данные с помощью нескольких строк кода. Попробуйте pandas-profiling!
- Синтетические данные. Искусственно созданные данные сохраняют исходные свойства данных, что обеспечивает их ценность для бизнеса и соблюдение требований конфиденциальности. Попробуйте ydata-synthetic!
- Разметка данных.Разве это не одна из ваших самых серьезных проблем с качеством данных? Сообщество DCAI культивирует содержательные дискуссии на эту и другие темы в нашем рабочем пространстве!
Кроме того, мы собрали (и продолжаем собирать) все полезные инструменты и ресурсы с открытым исходным кодом по трем направлениям в репозитории Awesome-Data-Centric-AI GitHub.
Бесконечные возможности вместе
«Чего ожидать?» — слышу ваш вопрос.
В Data-Centric AI Community мы считаем, что вместе мы можем активно изменить парадигму в сторону более качественных данных. Мы хотим собрать вместе экспертов из отрасли и способствовать содержательным беседам.
Ожидайте регулярного календаря событий и создания контента, который поможет вам лучше понять этот подход и позволит вам стать евангелистом ИИ, ориентированным на данные. Поскольку мы сотрудничаем с экспертами в отрасли, вы получите столь необходимое руководство непосредственно от тех, кто уже сделал то, что вы планируете сделать.
Ускорение ИИ с помощью улучшенных данных лежит в основе того, что мы делаем, и это сообщество с открытым исходным кодом — еще один шаг на пути к нашему осмысленному путешествию. Мы приглашаем вас стать частью этого — вместе возможности безграничны.
Фабиана Клементе является CDO в YData.
Ускорение работы ИИ с улучшенными данными.
YData предоставляет первую платформу разработки данных для команд Data Science.