Публикации по теме 'apache-spark'


Прогнозирование оттока клиентов в реальном времени для телекоммуникационных компаний
Прогнозирование оттока в реальном времени для телекоммуникационных компаний Краткое содержание В этой статье представлена ​​экспериментальная система прогнозирования оттока в режиме реального времени для телекоммуникационных компаний с описанием трех модулей, составляющих структуру: модуль издателя, который публикует данные о клиентах в теме Kafka, модуль потребителя, извлекающий данные из Тема Kafka и запись в поток Apache Spark, а также третий модуль, который читает из потока..

Как переименовать столбцы в PySpark DataFrames
Обсуждение различных способов переименования столбцов в PySpark DataFrames Вступление Переименование столбцов в PySpark DataFrames - одна из наиболее распространенных, но простых операций, которые можно применить. В сегодняшней статье мы обсудим различные способы переименования столбцов. В частности, мы рассмотрим, как это сделать, используя withColumnRenamed() метод selectExpr() метод alias метод Spark SQL Кроме того, мы обсудим, когда использовать один метод вместо..

Spark 3.0: первый практический подход с адаптивным выполнением запросов (часть 3)
В предыдущих статьях ( 1 ) ( 2 ) мы начали анализировать отдельные функции Adaptive Query Execution, представленные в Spark 3.0. В частности, мы проанализировали динамическое объединение перестановочных разделов и динамическое переключение стратегий объединения . И последнее, но не менее важное: давайте проанализируем, какая функция, вероятно, будет наиболее ожидаемой и ценной: Динамическая оптимизация перекосов Чтобы точно понять, что это такое, давайте сделаем небольшой шаг..

Ускорение работы с машинным обучением в реальном времени с помощью Spark и SBERT
Примечание редактора. Диллон Боствик и Авинаш Соорияраччи выступят на конференции ODSC Europe 2023, которая пройдет с 14 по 15 июня. Обязательно ознакомьтесь с их выступлением Ускорение машинного обучения в реальном времени здесь! Преимущества машинного обучения в реальном времени становятся все более очевидными. Цифровые компании уже давно доказали, что такие варианты использования, как обнаружение мошенничества, системы рекомендаций и динамическое ценообразование, выигрывают..

Линейная регрессия с использованием Apache Spark MLlib — Wisdom In Data
Что такое линейная регрессия? Википедия утверждает: линейная регрессия в статистике — это линейный подход к моделированию связи между зависимой переменной и одной или несколькими независимыми переменными. Линейная регрессия является основным и широко используемым типом прогнозного анализа. Вернемся к школьной математике: каждую прямую можно представить уравнением: y = mx + b, где y — зависимая переменная, а X — независимая переменная, от которой зависит y. Как мы можем использовать..

Чего вам никто не говорит о машинном обучении в реальном времени
Для обучения моделям кредитных карт вам понадобится множество примеров транзакций, и каждая транзакция должна быть помечена как мошенничество или Not-Fraud. Этикетки должны быть максимально точными! Это наш помеченный набор данных. Этот набор данных является входом для контролируемых алгоритмов машинного обучения. На основе размеченных данных алгоритм обучает модель обнаружения мошенничества. Модель обычно представлена ​​в виде двоичного классификатора с классами True (мошенничество) или..

Преодоление самых серьезных проблем Apache Spark
Осмысление больших данных Преодоление самых серьезных проблем Apache Spark Подробное руководство по наиболее сложным аспектам Spark и способам их преодоления специалистами по данным и инженерам. Компьютерное фото Камрана Айдинова - www.freepik.com Примерно 6 лет назад я впервые использовал Apache Spark, который на тот момент был доказательством того, что я начал заниматься аналитикой «больших данных». Не было никаких сомнений в том, что освоение Spark было обязанностью..