Публикации по тегам distributed-computing

Публикации по теме 'distributed-computing'

Концепции распределенных вычислений

Концепции распределенных вычислений Краткое введение Предисловие Было бы неплохо, если бы компьютеры никогда не выходили из строя, сети были надежными, а все операции всегда выполнялись чисто и изящно, никогда не оставляя систему в состоянии неопределенности. К сожалению, этого не может быть; нам приходится бороться с безрадостной суровостью реальности, которая особенно усугубляется при работе с распределенными …

День 7 (обдумываем хорошие варианты использования Ray)~N Days of Ray ~

Варианты использования, позволяющие максимально эффективно использовать луч, расчет графика Сегодня я хотел бы оставить базовую структуру ray и рассмотреть некоторые приложения. Одним из них является вычисление графов. Такие компании, как Bytedance, используют Ray для масштабных вычислений на графах. (📹: https://www.youtube.com/watch?v=7tMntN9kQbA ) 1–1. Что такое вычисление графа? Вычисление графа относится к обработке данных, структурированных в формате графа. Сюда входят узлы..

Обучение моделей на облачных TPU в Google Colab за 4 простых шага

Я обучил модель нейронного машинного перевода (NMT) на TPU и теперь чувствую себя волшебником ... У вас есть простая старая модель TensorFlow, которая требует слишком больших вычислительных ресурсов для обучения на стандартном рабочем ноутбуке. Я понял. Я тоже был там, и, честно говоря, наблюдать, как мой ноутбук два раза подряд ломался после попытки обучить на нем модель, было больно смотреть. В этой статье я расскажу, как обучить любую модель на TPU в облаке с помощью Google..

Stoke - предоставление игровой площадки для ускорителя на основе конфигурации без кода для PyTorch

Авторы : Николас Силфоун ( GitHub ), главный специалист по данным, Центр передового опыта в области искусственного интеллекта @ Fidelity Investments В организации корпоративного уровня качество кода и вычислительные ресурсы могут быть совершенно разными. Мы оказались в ситуации, когда нам нужно было поддерживать как локальные вычислительные кластеры GPU (например, кластер k8s с несколькими подключенными узлами Nvidia DGX-1), так и облачные решения GPU (например, AWS SageMaker) при..

Обработка сбоев в Celery Workers: повторные попытки, тайм-ауты и обработка ошибок

Освоение управления сбоями в Celery Workers: раскрытие возможностей повторных попыток, тайм-аутов и обработки ошибок для оптимизации выполнения задач и повышения надежности приложений Обработка сбоев в воркерах Celery имеет решающее значение для обеспечения надежности и производительности выполнения задач. Надлежащее управление сбоями с помощью таких стратегий, как повторные попытки, тайм-ауты и обработка ошибок, повышает надежность системы, повышает отказоустойчивость и сводит к..

Параллельное программирование для обучения и производства систем ML/AI

Для вычисления более простой или сложной задачи, когда она разделена на более мелкие модули, и каждый модуль вычисляется в другом ядре системы, это называется параллельной обработкой. Все меньшие модули выполняются одновременно, что дает результаты быстрее по сравнению с традиционными методами. В прошлом однопроцессорные среды использовались для выполнения машинного обучения, что могло привести к тому, что алгоритмические узкие места вызывали значительные задержки в обработке модели от..

Объявление о поддержке Federated Analytics в Raven Distribution Framework (RDF)

Федеративная аналитика — это последняя функция, добавленная в Raven Distribution Framework, которая обеспечивает безопасное динамическое агрегирование статистических данных, таких как среднее значение, дисперсия и стандартное отклонение, для данных, которые хранятся в частном порядке на нескольких клиентах. Библиотека RDF Ravop теперь поддерживает создание федеративных операций, которые разработчики могут использовать для проведения анализа без непосредственного наблюдения за личными..