Публикации по теме 'big-data-analytics'


Настройка Apache Spark, Livy и Hadoop Cluster с помощью Docker Swarm — Часть 1/2
Эта статья представляет собой пошаговое руководство по настройке Apache Livy для запуска Apache Spark в кластере Hadoop/YARN с использованием Docker Swarm. Образы Docker, используемые для настройки кластера, доступны здесь … В настоящее время мы работаем над вариантом использования Social Media Analytics, в котором мы искали простое взаимодействие с кластером Spark через интерфейс REST. Я разработал решение для использования Spark-as-a-service с использованием Apache. Livy, который..

Мое самоучка в области науки о данных до настоящего времени - с нуля до среднего
Со второго курса бакалавриата до сегодняшнего дня моим любимым предметом была наука о данных. Благодаря последовательному самообучению и работе над проектами я смог получить более глубокое представление об этой области и лучше понять ее применение в реальных сценариях. В этой статье я поделюсь своим продолжающимся путешествием по науке о данных самоучкой со времен учебы в колледже до сегодняшнего дня. Python Python был отправной точкой в ​​моем образовательном путешествии. Я..

Машинное обучение: что это такое и почему это важно
Машинное обучение начинает менять нашу жизнь, и это возможность нам понять, что это такое и почему оно имеет значение. Что такое машинное обучение? Машинное обучение - это центральная подобласть поддельного сознания. Это дает возможность ПК использовать метод самообучения без однозначной настройки. В момент представления новой информации эти программы для ПК получают возможность учиться, развиваться, изменять и творить независимо от кого-либо еще. SAS, разработчик программ..

Машинное обучение в Spark-1: понимание Spark и RDD
Основные понятия и фрагменты кода в python Что такое Apache Spark? Apache Spark — это платформа для работы с большими данными с открытым исходным кодом, основанная на скорости, простоте использования и сложной аналитике. Apache Spark предоставляет программистам API, основанный на структуре данных, называемой отказоустойчивым распределенным набором данных (RDD). В Spark все данные и вычислительная мощность распределены по его узлам. Что такое RDD? RDD означает..

Раскрытие возможностей науки о данных для будущего
Первый в истории Всемирный форум по науке о данных собрал экспертов и студентов из Японии и Индии, чтобы изучить возможности науки о данных для частных лиц, предприятий и организаций. В сегодняшней сильно оцифрованной среде важность анализа данных больше никем не может игнорироваться; будь то частные лица, предприятия и учреждения. По мере того как мы продолжаем внедрять инновационные технологии в нашу повседневную жизнь, мы наблюдаем беспрецедентный спрос на специалистов по данным,..

Почему TigerGraph отличался от Jaguar Land Rover во время пандемии
Большинство потребителей, заказавших в прошлом году автомобили на заказ, покидали автосалоны в меньшем восторге, чем им хотелось бы. Вместо того, чтобы держать в руках квитанции и предполагаемые даты получения, большинству не сообщали, когда именно они будут доставлены. Почему? Конечно, потому что Земля была в эпицентре глобальной пандемии. И даже после того, как заводы по сборке автомобилей снова открылись, это не означало, что то же самое можно сказать и о производителях и..

Прогнозирование оттока клиентов с помощью PySpark в студии IBM Watson
Аналитика больших данных: анализируйте поведение пользователей с помощью инструментов больших данных и службы облачных вычислений. Потеря клиентов (или отток) является серьезной проблемой для многих компаний. Мы можем количественно определить отток как количество клиентов, которые отказались от подписки или расторгли контракт на обслуживание с компанией. Возможность определить клиентов, которые с наибольшей вероятностью уйдут, и принять превентивные меры (например, предложить скидки..