Публикации по теме 'apache-spark'


Интернет вещей и автономный транспорт в облаке: SLAM с Kafka™ и Spark™ Streaming
Беспилотные транспортные средства (ATV) стали настоящим хитом. В то время как автономная навигация была давней проблемой для военных приложений, включая управляемые ракеты, разведывательные роботы и подводные лодки, ATV теперь перешел черту коммерческого применения. Теперь у нас есть мечты о том, что когда-нибудь наши автомобили смогут безопасно перемещаться в пробках по дороге домой с работы. Но мы мечтаем не только о беспилотном и безаварийном будущем; мы быстро движемся к полной..

Кто этот слушатель искры?
Яцек Ласковски сделал хорошую документацию по слушателям искры. Я сделал эту страницу, так как мы продолжаем сталкиваться с этой ОШИБКОЙ: 2018-06-13 08:07:26 ERROR LiveListenerBus:70 - Dropping SparkListenerEvent because no remaining room in event queue. This likely means one of the SparkListeners is too slow and cannot keep up with the rate at which tasks are being started by the scheduler. 2018-06-13 08:07:26 WARN LiveListenerBus:66 - Dropped 1 SparkListenerEvents since Thu Jan 01..

Анализируя сообщения Medium и создавая простой сервис прогнозирования для "Popular on Medium"
В наши дни Medium повсюду. Ведение блогов принимает форму историй, в которых больше внимания уделяется личному общению. Medium стал платформой для выражения своих взглядов и обмена ими с мировым сообществом. Я решил провести быстрый анализ статей и посмотреть, что отличает посты «Популярное на Medium» от других постов. Я также хотел создать предсказатель, который мог бы предсказать, будет ли сообщение отображаться в популярном разделе, и попытаться определить, какие функции наиболее..

Apache Spark — CombineByKey
Спарк-код для объединения слов, начинающихся с одной буквы. У нас есть пример данных слов, разделенных пробелом. Мы преобразуем его в JavaPairRDD ‹Character, String› SparkSession sparkSession = SparkSession.builder().appName("combineByKey").getOrCreate(); JavaSparkContext javaSparkContext = new JavaSparkContext(sparkSession.sparkContext()); List<String> data = Arrays.asList("bat", "mat", "hat", "rat", "cat",..

Практичный Apache Spark за 10 минут. Часть 5 - Стриминг
Spark - мощный инструмент, с помощью которого можно решить множество интересных задач. Некоторые из них обсуждались в наших предыдущих постах. Сегодня мы рассмотрим еще одно важное приложение, а именно стриминг. Потоковые данные - это данные, которые непрерывно поступают в виде небольших записей из разных источников. Существует множество вариантов использования потоковых технологий, таких как мониторинг датчиков в промышленных или научных устройствах, проверка журналов серверов,..

Модульное тестирование Apache Spark, часть 1 - основные компоненты
Эта статья посвящена тому, как использовать собственные классы репозитория Spark для модульного тестирования и претендовать на то, чтобы заполнить пробел между кодом и документацией внутри домена модульного тестирования Spark. Spark имеет огромный фреймворк, который позволяет разработчикам тестировать свой код в самых разных случаях. Большинство тестовых классов пакета core размещено здесь . Зависимости Основные компоненты SparkFunSuite Базовый абстрактный класс для всех..

Платформа машинного обучения Brandfolder
27 сентября 2018 г., Copyright Brandfolder, Inc., 2018 г. Введение Предоставление нашим клиентам (Brandfolder) творческого опыта, основанного на данных, включало расширение чрезвычайно хорошего продукта путем создания платформы машинного обучения для беспрепятственного предоставления набора данных продуктов. Работая в условиях очень небольшой команды с небольшим бюджетом и короткими сроками, было важно использовать проекты с открытым исходным кодом ( Apache Spark¹, Apache Zeppelin и..