Публикации по тегам apache-spark

Публикации по теме 'apache-spark'

Как предсказать отток пользователей с помощью PySpark на больших данных

Представьте, что вы работаете в крупнейшей (вымышленной) компании по потоковой передаче музыки в мире Sparkify . Дела шли отлично, пока вы не начали терять платежеспособных клиентов. Тем не менее, компания вела подробные журналы для своих пользователей, включая их активность, время, затраченное на сеанс, и демографические данные, среди прочего. Вы можете сказать: «Это мой момент». Пришло время Pandas, Matplotlib и scikit-learn показать свою ценность и дать точный прогноз оттока..

Как добавить новый столбец в фрейм данных PySpark

Изучение нескольких способов добавления новых столбцов в существующие фреймы данных Spark Введение Добавление новых столбцов в PySpark DataFrames, вероятно, является одной из наиболее распространенных операций, которые вам необходимо выполнять в повседневной работе. В сегодняшнем кратком руководстве мы обсудим, как это сделать разными способами. В частности, мы рассмотрим, как добавлять новые столбцы и заполнять их. с литералами путем преобразования существующих столбцов..

TransmogrifAI: создание приложений машинного обучения упрощается с помощью AutoML

@himanshu и я работаем в команде IDE в Salesforce и недавно узнали о TransmogrifAI , нашей новой библиотеке AutoML. Мы создали этот блог, чтобы помочь другим начать работу, и надеемся, что он вам понравится! Сможете угадать, сколько времени нужно на создание приложения для машинного обучения? дней? недели? месяцы? Обычно на это уходят месяцы! Мы задали себе этот вопрос и начали сосредотачиваться на улучшении этого времени до дней или даже часов, чтобы повысить нашу..

Комбинация Apache PredictionIO и Apache Zeppelin

Apache PredictionIO и Apache Zeppelin являются программным обеспечением с открытым исходным кодом в рамках Apache Software Foundation. PredictionIO - это сервер машинного обучения, основанный на Apache Spark и SparkML / MLlib. Он хранит данные о событиях в СУБД, HBase или Elasticsearch и использует эти данные для обучения или проверки. Zeppelin - это портативный сервер для Apache Spark и SparkSQL. Однажды я подумал, что может быть полезно, если мы сможем импортировать и..

SparkFlow: обучение моделей TensorFlow с помощью конвейеров Apache Spark

В LifeOmic команда машинного обучения часто работает с большими наборами геномных данных и данных пациентов, которые требуют сложной разработки и моделирования функций. Из-за огромного размерного размера этих наборов данных часто важно извлечь скрытые переменные (или предполагаемые функции) с помощью глубокого обучения, чтобы уменьшить размер измерения для дальнейшего моделирования. Это включает поддержку традиционных методов, таких как обучение с учителем (прогнозирование метки по..

Машинное обучение @ Teads - Часть II

Стек, рабочий процесс и практика В предыдущем посте мы говорили о том, почему мы используем машинное обучение в Teads и над какими конкретными вариантами использования мы работаем. В этой статье мы расскажем, какие технологии мы используем, почему нам пришлось создавать новые решения, а также наш рабочий процесс машинного обучения. Мы закончим тем, как мы на самом деле улучшаем нашу практику машинного обучения. Стек ML и почему мы не используем MLlib В нашем стеке..

Настройка Apache Spark, Livy и Hadoop Cluster с помощью Docker Swarm — Часть 1/2

Эта статья представляет собой пошаговое руководство по настройке Apache Livy для запуска Apache Spark в кластере Hadoop/YARN с использованием Docker Swarm. Образы Docker, используемые для настройки кластера, доступны здесь … В настоящее время мы работаем над вариантом использования Social Media Analytics, в котором мы искали простое взаимодействие с кластером Spark через интерфейс REST. Я разработал решение для использования Spark-as-a-service с использованием Apache. Livy, который..