Публикации по теме 'data-pipeline'


Эффективные данные TensorFlow
Мы собрали данные с машины в какой-то пищевой компании. Задача состоит в том, чтобы использовать эти данные и предсказать, в плохом состоянии машина или нет. Для этого мы будем обучать модель на хороших данных (когда машина находится в нормальном рабочем состоянии). Мы не будем обучать модель на плохих данных (когда машина требует обслуживания). Вместо этого мы прогнозируем по оперативным данным. Мы предполагаем, что при наличии достаточного количества хороших данных для моделирования..

Сложности управления данными: инструменты ИИ и не только
Революция в области анализа и управления данными была не чем иным, как вихрем. Каждый день появляется новый инструмент, новый алгоритм или новая модель, которые обещают изменить то, как мы взаимодействуем с данными и используем их. Центральное место в этих разработках занимает рост искусственного интеллекта (ИИ). В частности, такие модели, как ChatGPT от OpenAI, значительно продвинулись в генерации текста, ответах на запросы и помощи в решении проблем. Однако, цитируя старую..

Пересмотр Википедии через расширенные линзы данных (# 4)
Введение Википедия — мать всех онлайн-энциклопедий. Этот веб-сайт был не первым, но первой онлайн-энциклопедией, которая набрала обороты и закрепила свой статус в истории Интернета и в сердцах своих пользователей. Что такое Википедия? Я родился в 1998 году и интернет был не в том состоянии, которое можно сравнить с тем, что есть сейчас. YouTube был в начале, и никто не называл себя ютубером… Википедия немного старше, и в определенной степени мы выросли на шумихе вокруг Википедии...

Оркестрация конвейера прогнозирования машинного обучения с помощью Центра управления машинным обучением
Подход на основе YAML для построения конвейеров обработки данных Введение В предыдущем сообщении в блоге мы описали подход Glassdoor к MLOps. Мы выбрали этот подход, потому что ландшафт MLOps быстро развивается, и мы хотим иметь гибкость, чтобы использовать лучшие доступные варианты. ML Control Center (MLCC) — это проект, который мы разрабатываем в Glassdoor и который будет служить связующим звеном для соединения и объединения этих разрозненных компонентов. Мы планируем перейти к..

Конвейер данных MLOps и ML: ключевые выводы
Если вы когда-либо работали с моделью машинного обучения (ML) в производственной среде, возможно, вы слышали о MLOps. Этот термин объясняет концепцию оптимизации жизненного цикла машинного обучения путем устранения разрыва между процессами проектирования, разработки моделей и эксплуатации. Поскольку все больше команд пытаются создавать решения ИИ для реальных случаев использования, MLOps теперь больше, чем просто теоретическая идея; это горячо обсуждаемая область машинного обучения,..

Освоение предварительной обработки данных для машинного обучения
В сфере машинного обучения есть известная поговорка: «Мусор на входе, мусор на выходе». Это подчеркивает важность качества данных. Необработанные данные, особенно из реальных сценариев, часто содержат шум, пропущенные значения, дубликаты и другие недостатки. Прежде чем погрузиться в моделирование, крайне важно уточнить и предварительно обработать эти данные. В этой статье мы рассмотрим семь основных шагов предварительной обработки и очистки набора данных для проекта машинного..

Инжиниринг качества наших конвейеров данных
Конвейер данных — это программное обеспечение, которое получает данные из нескольких источников, преобразует их и, наконец, делает доступными для внутренних или внешних продуктов. Конвейеры данных по своей природе очень сложны в построении и еще сложнее в тестировании. Есть много аспектов построения конвейера данных, которые часто игнорируются и позволяют ошибкам просачиваться через утечки. Язык конвейеров данных не так важен, как его архитектура и поток данных. Я видел, поверьте..