Публикации по теме 'big-data-analytics'
Настройка Apache Spark, Livy и Hadoop Cluster с помощью Docker Swarm — Часть 1/2
Эта статья представляет собой пошаговое руководство по настройке Apache Livy для запуска Apache Spark в кластере Hadoop/YARN с использованием Docker Swarm. Образы Docker, используемые для настройки кластера, доступны здесь …
В настоящее время мы работаем над вариантом использования Social Media Analytics, в котором мы искали простое взаимодействие с кластером Spark через интерфейс REST. Я разработал решение для использования Spark-as-a-service с использованием Apache. Livy, который..
Мое самоучка в области науки о данных до настоящего времени - с нуля до среднего
Со второго курса бакалавриата до сегодняшнего дня моим любимым предметом была наука о данных. Благодаря последовательному самообучению и работе над проектами я смог получить более глубокое представление об этой области и лучше понять ее применение в реальных сценариях. В этой статье я поделюсь своим продолжающимся путешествием по науке о данных самоучкой со времен учебы в колледже до сегодняшнего дня.
Python
Python был отправной точкой в моем образовательном путешествии. Я..
Машинное обучение: что это такое и почему это важно
Машинное обучение начинает менять нашу жизнь, и это возможность нам понять, что это такое и почему оно имеет значение.
Что такое машинное обучение?
Машинное обучение - это центральная подобласть поддельного сознания. Это дает возможность ПК использовать метод самообучения без однозначной настройки. В момент представления новой информации эти программы для ПК получают возможность учиться, развиваться, изменять и творить независимо от кого-либо еще.
SAS, разработчик программ..
Машинное обучение в Spark-1: понимание Spark и RDD
Основные понятия и фрагменты кода в python
Что такое Apache Spark?
Apache Spark — это платформа для работы с большими данными с открытым исходным кодом, основанная на скорости, простоте использования и сложной аналитике.
Apache Spark предоставляет программистам API, основанный на структуре данных, называемой отказоустойчивым распределенным набором данных (RDD).
В Spark все данные и вычислительная мощность распределены по его узлам.
Что такое RDD?
RDD означает..
Раскрытие возможностей науки о данных для будущего
Первый в истории Всемирный форум по науке о данных собрал экспертов и студентов из Японии и Индии, чтобы изучить возможности науки о данных для частных лиц, предприятий и организаций.
В сегодняшней сильно оцифрованной среде важность анализа данных больше никем не может игнорироваться; будь то частные лица, предприятия и учреждения. По мере того как мы продолжаем внедрять инновационные технологии в нашу повседневную жизнь, мы наблюдаем беспрецедентный спрос на специалистов по данным,..
Почему TigerGraph отличался от Jaguar Land Rover во время пандемии
Большинство потребителей, заказавших в прошлом году автомобили на заказ, покидали автосалоны в меньшем восторге, чем им хотелось бы. Вместо того, чтобы держать в руках квитанции и предполагаемые даты получения, большинству не сообщали, когда именно они будут доставлены.
Почему? Конечно, потому что Земля была в эпицентре глобальной пандемии. И даже после того, как заводы по сборке автомобилей снова открылись, это не означало, что то же самое можно сказать и о производителях и..
Прогнозирование оттока клиентов с помощью PySpark в студии IBM Watson
Аналитика больших данных: анализируйте поведение пользователей с помощью инструментов больших данных и службы облачных вычислений.
Потеря клиентов (или отток) является серьезной проблемой для многих компаний. Мы можем количественно определить отток как количество клиентов, которые отказались от подписки или расторгли контракт на обслуживание с компанией. Возможность определить клиентов, которые с наибольшей вероятностью уйдут, и принять превентивные меры (например, предложить скидки..