Путешествие — и приглашение — в экосистему NVIDIA с GPU-ускорением

Автор Хуан Медина, руководитель группы Data Science & ML в Loka.com

Все больше и больше прорывных компаний обращаются к науке о данных, чтобы использовать крупномасштабные наборы данных и генерировать ценные идеи. Хотя наука о данных невероятно ценна для бизнеса, она также может быть трудным и дорогостоящим процессом.

Создание и обучение моделей могут занять месяцы, а производственные модели могут увеличить это время в геометрической прогрессии. Это может существенно повлиять на бюджет, скорость производства и время выхода на рынок.

Независимо от отрасли, стартапы и инновационные подразделения крупных брендов хотят обучать модели машинного обучения на более высоких скоростях. Если бы они могли, это помогло бы им быстрее извлекать информацию, снизить затраты и дало бы им мгновенное преимущество на рынке.

Как специалисты по данным и инженеры по машинному обучению в Loka, мы хотим быть готовыми помочь нашим клиентам добиться этого.

Отличная новость: мы видим, что с помощью графических процессоров мы можем сократить время выхода на рынок при меньших затратах.

Наша история происхождения RAPIDS

Еще в январе руководитель нашей команды в Loka познакомил нас с новым набором NVIDIA библиотек с открытым исходным кодом, которые позволяют выполнять сквозные конвейеры обработки данных и аналитики полностью на их графических процессорах. NVIDIA назвала его RAPIDS, и это поразило нас.

Чем больше мы копались, тем больше нас впечатляло улучшение времени вычислений, которого мы могли достичь с помощью RAPIDS по сравнению с решениями на базе ЦП. Даже процессорный Apache Spark не был близок к этому.

Тогда мы подумали, а не было бы круто ускорить время обработки на собственных внутренних проектах? Поэтому мы пошли дальше и применили RAPIDS к нашей собственной работе. В частности, на увеличение изображения.

К сожалению, мы обнаружили, что RAPIDS больше подходит для обработки структурированных данных. Но это был поворотный момент для нас; именно тогда мы начали мечтать о большем.

В Локе мы глубоко ценим смелые инновации и постоянное любопытство. В этом духе мы подумали, как мы могли бы увеличить эти изображения с помощью графического процессора. Если не РАПИДА, то что?

Наше любопытство привело нас к OpenCV — стандартной библиотеке для обработки изображений — и в итоге мы нашли способ использовать эту библиотеку на графическом процессоре. (По общему признанию, это смелый шаг браться за такую ​​задачу при отсутствии достаточной информации о ней. Не волнуйтесь, мы поделимся с вами нашими выводами! :D)

Через несколько звонков в Zoom мы решили начать создание экосистемы, ориентированной на GPU-ускорение NVIDIA для обработки данных и машинного обучения.

Идея заключалась в том, чтобы использовать RAPIDS для структурированных данных, а OpenCV — для обработки изображений. Следующим шагом было создание подходящей среды, чтобы можно было начать использовать эти библиотеки для наших внутренних проектов.

Это исследование предназначено не только для нас — оно является катализатором для более широкого сообщества RAPIDS.

И это путешествие, которым мы хотим поделиться с вами. Мы хотим быть прозрачными в отношении нашего исследования этого инструмента и наших выводов. Скорости, варианты использования, выводы и то, как RAPIDS может сделать науку о данных и извлечение ценной информации более осуществимой и доступной.

Этот пост представляет собой краткое введение в серию статей, в которых мы продемонстрируем наш опыт создания экосистемы, ориентированной на решения с ускорением на GPU для любых энтузиастов науки о данных.

В этом стремлении к более эффективным вычислениям вы найдете тесты с использованием RAPIDS, информацию о его применении, реализации на GPU и все другие интересные вещи, над которыми мы работаем в этой области.

Мы будем делиться с вами нашими выводами (и ошибками) практически в режиме реального времени, демонстрируя вам и всем остальным, на что способны наши специалисты по обработке и анализу данных с GPU-ускорением NVIDIA. Будущее для ИИ, машинного обучения и человечества начинается сегодня, с вами, с нами, с нашими специалистами по данным.

Предстоящие посты о нашем путешествии по GPU-ускорению:

  • Итак, насколько быстро работает RAPIDS: сравнительный анализ функций NVIDIA с ускорением на графическом процессоре для увеличения изображений
  • Использование RAPIDS для запуска EDA о Sloan Digital Sky Survey — CPU vs GPU
  • Минимизация затрат за счет построения конвейера CI/CD по запросу для библиотек с ускорением на GPU

Мы надеемся, что вы присоединитесь к нам в нашем путешествии. Быть в курсе.

Первоначально опубликовано на https://loka.com.