Публикации по тегам apache-spark

Публикации по теме 'apache-spark'

Представляем DataFu-Spark

Как и во многих проектах Apache с сильными сообществами и растущими экосистемами, Apache DataFu имеет вклад от отдельных коммиттеров кода, нанятых различными организациями. Пользователи проектов Apache, которые вносят свой код обратно в проект, приносят пользу всем. Это вторая часть нашей истории ( первая часть здесь ). На протяжении более пяти лет datafu-pig представлял собой важную коллекцию универсальных пользовательских функций Apache Pig, коллекцию, в которую PayPal часто..

Как построить классификационную модель с помощью apache spark

Первоначально опубликовано на https://www.niit.com/india/ Apache Spark — это секретная система обработки с открытым исходным кодом, используемая для рабочих нагрузок с большими данными . Он использует кэширование в памяти и оптимизированное выполнение запросов для быстрых запросов к данным любого размера. Другими словами, Spark — это очень быстрый и универсальный движок, используемый для крупномасштабной обработки данных. Библиотека Spark для машинного обучения известна как..

Tensorflow — Простые преобразования

Я пробую материал с http://learningtensorflow.com/lesson3/ , в котором рассказывается о простых преобразованиях изображений с использованием тензорного потока. Я пробую это в zeppelin + pyspark. %sh wget http://learningtensorflow.com/images/MarshOrchid.jpg readlink -f MarshOrchid.jpg -------------------------------------------------------------------- %pyspark import numpy as np import StringIO import matplotlib matplotlib.use('Agg') # turn off interactive charting so this works for..

Оптимизация моделей машинного обучения с помощью Hyperopt и RAPIDS в облаке Databricks

TL; DR Краткое руководство по использованию пакета Hyperopt HPO с RAPIDS в облаке Databricks для оптимизации точности классификатора случайного леса. (Полные примеры кода доступны здесь .) В нашем предыдущем блоге мы показали, как использовать MLFlow вместе с RAPIDS cuML для более быстрого обучения моделей и более эффективного управления ими. Эти инструменты позволяют отдельным специалистам по данным и группам быстро выполнять итерации моделей и постоянно улучшать их,..

Конференция Spark+AI Summit 2019 — Мое резюме

Наблюдения высокого уровня: Сосредоточьтесь на переводе ETL в производство, обучении машинному обучению, а также управлении и развертывании моделей машинного обучения. Сосредоточьтесь на эффективности озер данных Увеличение зрелости многих фреймворков Способность объяснить свои модели/алгоритмы с точки зрения справедливости и правил Сделать машинное обучение более успешным, чем во многих организациях Если вам интересно, как выглядит общий ландшафт в этой отрасли, вот некоторая..

Графические процессоры NVIDIA и Apache Spark, на шаг ближе

Пакет RAPIDS XGBoost4J-Spark уже доступен Авторы: Энди Фенг, Томас Грейвс, Роберт Эванс, Джейсон Лоу, Гэри Шен Хотя RAPIDS начинался с фокусировки на Python API, многие хотят ощутить такое же ускорение NVIDIA GPU в Apache Spark ; на самом деле, у нас их много в NVIDIA. Когда RAPIDS впервые был запущен, у нас был план по ускорению Apache Spark , а также Dask , и мы хотим поделиться некоторыми основными достижениями, которых мы добились за последние пару месяцев. Apache Spark..

Создайте сквозную модель машинного обучения с помощью MLlib в pySpark.

Для задачи двоичной классификации с несбалансированными классами Вступление Вычисления в памяти и параллельная обработка являются одними из основных причин того, что Apache Spark стал очень популярным в индустрии больших данных для работы с крупномасштабными продуктами данных и более быстрого анализа. MLlib , построенный на основе Spark, представляет собой масштабируемую библиотеку машинного обучения, которая обеспечивает как высококачественные алгоритмы, так и молниеносную..