Публикации по теме 'apache-spark'
Как предсказать отток пользователей с помощью PySpark на больших данных
Представьте, что вы работаете в крупнейшей (вымышленной) компании по потоковой передаче музыки в мире Sparkify . Дела шли отлично, пока вы не начали терять платежеспособных клиентов. Тем не менее, компания вела подробные журналы для своих пользователей, включая их активность, время, затраченное на сеанс, и демографические данные, среди прочего.
Вы можете сказать: «Это мой момент». Пришло время Pandas, Matplotlib и scikit-learn показать свою ценность и дать точный прогноз оттока..
Как добавить новый столбец в фрейм данных PySpark
Изучение нескольких способов добавления новых столбцов в существующие фреймы данных Spark
Введение
Добавление новых столбцов в PySpark DataFrames, вероятно, является одной из наиболее распространенных операций, которые вам необходимо выполнять в повседневной работе.
В сегодняшнем кратком руководстве мы обсудим, как это сделать разными способами. В частности, мы рассмотрим, как добавлять новые столбцы и заполнять их.
с литералами путем преобразования существующих столбцов..
TransmogrifAI: создание приложений машинного обучения упрощается с помощью AutoML
@himanshu и я работаем в команде IDE в Salesforce и недавно узнали о TransmogrifAI , нашей новой библиотеке AutoML. Мы создали этот блог, чтобы помочь другим начать работу, и надеемся, что он вам понравится!
Сможете угадать, сколько времени нужно на создание приложения для машинного обучения? дней? недели? месяцы?
Обычно на это уходят месяцы! Мы задали себе этот вопрос и начали сосредотачиваться на улучшении этого времени до дней или даже часов, чтобы повысить нашу..
Комбинация Apache PredictionIO и Apache Zeppelin
Apache PredictionIO и Apache Zeppelin являются программным обеспечением с открытым исходным кодом в рамках Apache Software Foundation. PredictionIO - это сервер машинного обучения, основанный на Apache Spark и SparkML / MLlib. Он хранит данные о событиях в СУБД, HBase или Elasticsearch и использует эти данные для обучения или проверки. Zeppelin - это портативный сервер для Apache Spark и SparkSQL.
Однажды я подумал, что может быть полезно, если мы сможем импортировать и..
SparkFlow: обучение моделей TensorFlow с помощью конвейеров Apache Spark
В LifeOmic команда машинного обучения часто работает с большими наборами геномных данных и данных пациентов, которые требуют сложной разработки и моделирования функций.
Из-за огромного размерного размера этих наборов данных часто важно извлечь скрытые переменные (или предполагаемые функции) с помощью глубокого обучения, чтобы уменьшить размер измерения для дальнейшего моделирования. Это включает поддержку традиционных методов, таких как обучение с учителем (прогнозирование метки по..
Машинное обучение @ Teads - Часть II
Стек, рабочий процесс и практика
В предыдущем посте мы говорили о том, почему мы используем машинное обучение в Teads и над какими конкретными вариантами использования мы работаем. В этой статье мы расскажем, какие технологии мы используем, почему нам пришлось создавать новые решения, а также наш рабочий процесс машинного обучения. Мы закончим тем, как мы на самом деле улучшаем нашу практику машинного обучения.
Стек ML и почему мы не используем MLlib
В нашем стеке..
Настройка Apache Spark, Livy и Hadoop Cluster с помощью Docker Swarm — Часть 1/2
Эта статья представляет собой пошаговое руководство по настройке Apache Livy для запуска Apache Spark в кластере Hadoop/YARN с использованием Docker Swarm. Образы Docker, используемые для настройки кластера, доступны здесь …
В настоящее время мы работаем над вариантом использования Social Media Analytics, в котором мы искали простое взаимодействие с кластером Spark через интерфейс REST. Я разработал решение для использования Spark-as-a-service с использованием Apache. Livy, который..