Hadoop - это основной компонент экосистемы аналитики больших данных с открытым исходным кодом. Он включает в себя систему хранения HDFS для хранения больших данных и MapReduce для обработки данных. Отрасль больших данных уже более десяти лет полагается на Hadoop для обработки крупномасштабных и огромных объемов больших данных с масштабируемостью и отказоустойчивостью с распределенным глубоким обучением на Apache Spark и CaffeonSpark. Hadoop имеет отказоустойчивую систему, которая необходима для предотвращения точек сбоя в распределенной системе. Библиотеку Apache Mahout можно использовать для реализации машинного обучения.

На приведенной выше диаграмме показана история Hadoop на временной шкале. В 2003 году Google выпустил MapReduce как проект Nutch, который привел к коммерческому рождению Hadoop в 2006 году. Развитие Hadoop продолжалось в течение последнего десятилетия с GFS + (концепция файловой системы Google), которая была основой для HDFS (файловая система Hadoop). ) в более поздние годы. В 2007 году Yahoo Inc. начала запускать кластер Hadoop с 1000 узлами.

· Hadoop получил широкое распространение в индустрии больших данных, поскольку он работает на недорогих серверах, не требуя высокопроизводительных вычислительных серверов и процессоров. Вращение и замедление узлов в экосистеме Hadoop оказалось гибким и простым фактором для организаций, использующих экосистему больших данных.

· HDFS - это файловая система, которая может хранить и обрабатывать большие данные в структурированных, полуструктурированных и неструктурированных форматах.

· Hadoop - это экосистема с открытым исходным кодом. Он имеет большое количество сообществ по работе с большими данными, которые поддерживают разработку новых выпусков с дополнительными функциями по всему миру. Экосистема с открытым исходным кодом также используется рядом организаций, таких как Hortonworks, Facebook и Yahoo, для добавления новых инструментов поверх Hadoop.

· Архитектура Hadoop спроектирована распределенно и не сводится к единой точке отказа. Несмотря на то, что может быть несколько узлов, которые могут выйти из строя, система устойчива и отказоустойчива, чтобы распределять данные по другим узлам, чтобы функциональность оставалась неизменной.

· Hadoop предлагает платформу для больших данных, позволяющую выполнять огромное количество масштабируемых алгоритмов как для контролируемого, так и для неконтролируемого обучения сложных данных.

· Функциональность Hadoop также обеспечивает индексированный поиск, хранение и обработку журналов, совместную фильтрацию и другие методы для систем рекомендаций, озер данных, архитектуры корпоративных данных с системами бизнес-аналитики, графической базы данных, создания графиков для визуализации данных, анализа кластеризации. , и интеллектуальный анализ данных.

· Экосистема Hadoop предлагает экосистему для нескольких инструментов для выполнения определенных задач. HDFS выполняет хранение файлов и обработку данных как распределенную систему. MapReduce выполняет вычисления с параллельным и распределенным программированием в сочетании с Apache Spark для повышения производительности за счет вычислений в памяти. Поддерживает собственную базу данных NoSQL, такую ​​как Apache HBase. Экосистема Hadoop также предлагает механизмы приема данных, такие как Apache Storm, Apache Sqoop и Apache Flume. Apache Zookeeper предоставляет сервисное программирование на Hadoop. Apache Oozie управляет заданиями по планированию, а Apache Mahout предлагает ряд масштабируемых алгоритмов машинного обучения. Apache Ambari - это инструмент, который может управлять установкой и развертыванием Hadoop. Управление ресурсами осуществляется YARN.

· Помимо дистрибутива Apache Hadoop с открытым исходным кодом, ряд поставщиков предлагают коммерческие дистрибутивы Hadoop, такие как MapR, HortonWorks, Cloudera и Amazon Elastic MapReduce.

  • Этапы установки

Я использовал два подхода к установке Apache Hadoop с использованием операционной системы Linux, которая запускает мои 64-разрядные приложения SAP, работающие поверх Mac OS. Первая альтернатива - установка с помощью инструмента графической визуализации Apache Ambari. Вторая альтернатива - установить экосистему Hadoop через командную строку из терминала Linux. Я буду обсуждать мои шаги по установке через вторую альтернативу для этой публикации.

В этом подходе я использовал чисто простой подход командной строки, запустив весь процесс установки через командную строку с Hadoop 2.7.3. а операционная система Linux Ubuntu - более старая версия 14.04).

Процесс настройки открытого и закрытого ключей SSH очень похож на установку Apache Ambari. Сгенерируйте открытый и закрытый ключи SSH с помощью командной строки ssh-keygen –t rsa –p.