Публикации по тегам data-pipeline

Публикации по теме 'data-pipeline'

Ценность аналитики данных за пределами категории корпоративного машинного обучения

Для руководителя, отвечающего за стратегию данных на уровне предприятия, понятно намерение интегрировать ресурсы, включая специалистов по данным, ИТ-отделы и алгоритмы машинного обучения. Интуитивно понятный способ — связать специалистов по данным и ИТ-отделы с конкретными алгоритмами машинного обучения и, наконец, создать категорию корпоративного машинного обучения. Здесь я объясню ловушки в такой категории машинного обучения. В рамках предприятия может существовать множество..

Конвейеры Scikit-Learn с настраиваемым преобразователем - пошаговое руководство.

Алгоритм данных и модели - это два основных модуля, от которых зависит полное машинное обучение. В модуле данных извлечение данных и их обработка (или более известная как разработка функций) играют решающую роль в полном жизненном цикле построения модели. В реальной жизни любая проблема машинного обучения, как правило, имеет сотни входных функций, вокруг которых необходимо концептуализировать решение. Чтобы понять характеристики данных и создать отчет об анализе соответствия для..

В поисках понимания машинного обучения в производстве и примечаний, часть II

Продолжая часть I этого квеста. Это произведение позволит глубоко погрузиться в творчество Мартина Зинкевича. Эти правила очень тактические и предполагают высокую степень знакомства с созданием продуктов, основанных на машинном обучении. Честно говоря, после тщательного изучения документа многие правила я могу понять только концептуально, поскольку моя повседневная работа не связана напрямую занимается построением моделей. С точки зрения объема приложения машинного обучения, упомянутые в..

Надежный и масштабируемый жизненный цикл машинного обучения для высокопроизводительной команды ИИ

Нельзя отрицать, что мы находимся в эре искусственного интеллекта, чему способствуют достижения в области алгоритмов и вычислений, доступность новейших алгоритмов в различных библиотеках программного обеспечения, облачные технологии и желание компаний раскрыть идеи из огромного количества неиспользованные неструктурированные данные, хранящиеся на их предприятиях. Хотя ясно, куда мы направляемся, похоже, есть препятствие на пути, о котором я расскажу в этом блоге. Иногда перспектива..

Как предварительно обработать большие наборы данных для машинного обучения с помощью Spark

Вступление В этой статье я продемонстрирую, как я преодолел одно из ограничений решений на основе чистого Python для предварительной обработки больших наборов данных для обучения моделей машинного обучения. Мотивация Я работал с набором данных обзора настольной игры, где мне нужно было построить модель, которая прогнозирует рейтинг для данного обзора об игре. Хотя я использовал scikit-learn для обучения модели и прогнозирования рейтинга для данного обзора, я заметил, что не все..

Как масштабировать конвейер машинного обучения

Распараллеливайте и распространяйте конвейер машинного обучения Python с помощью Luigi, Docker и Kubernetes В этой статье представлен самый простой способ превратить ваше приложение машинного обучения из простой программы Python в масштабируемый конвейер, работающий в кластере . Загляните в репозиторий Github , чтобы увидеть готовый пример кода. Что вы узнаете: Как использовать luigi для управления задачами Как легко создать интерфейс командной строки для скрипта Python с..

14 # От каркаса до полностью визуализированного

Передискретизация методом проб и ошибок Взаимодействие между масштабом и рассуждением содержит множество ловушек для неосторожных, как мы обсуждали в последних сообщениях. Это не та проблема, с которой пользователи должны сталкиваться на техническом уровне. Создание прототипов и тестирование кода вызывают головную боль у специалистов по данным и могут тратить значительный объем вычислительных ресурсов. Чтобы избежать работы с массивными (непереносимыми) наборами данных, обычно..