HADOOP – это программная среда, созданная на основе Google Map Reduce и Google File System, которая в настоящее время считается лучшим решением для работы с большими данными. Дополнительную информацию см. в разделе Курс больших данных и Hadoop .

Когда мы говорим о больших данных, это может быть что угодно в виде изображения, фильма и т. д., и они занимают огромное количество места.

В Hadoop хранилище обеспечивается HDFS — это хороший способ хранения для предотвращения потери данных в случае сбоя и анализа с помощью Map Reduce(обработка данных) с использованием собственного специального анализа, запускает запрос к большому объему данных и показывает результат за разумное время.

HDFS и MapReduce являются ключевыми моментами в Hadoop.

MapReduce в первую очередь хорошо работает с неструктурированными данными и частично структурированными данными, например с файлом веб-журнала. Эти данные не организованы, как в реляционных таблицах, таких как таблицы оракула. И карта уменьшает легкость обработки этих наборов данных. Некоторые из языков более высокого уровня, основанные на уменьшении карты, — это Pig и Hive.

Map Reduce состоит из двух функций, в основном функции карты и функции сокращения. Он работает с огромными наборами данных и возвращает желаемые результаты. Запрос, который выглядит сложным, может быть выражен с помощью MapReduce в виде задания MapReduce.

Первым шагом здесь является передача входных данных. Как уже упоминалось, Уменьшение карты будет состоять из двух фаз: фаза карты (функция карты) и фаза уменьшения (функция уменьшения). Входные данные будут переходит к этапу карты. Возьмем пример с неструктурированными данными. Функция карты обработает входные данные, возьмет необходимые поля из ввода и перейдет к фазе сокращения. Это удаляет много нежелательных записей.

Выходные данные функции карты будут переданы на этап уменьшения карты. Затем функция сокращения будет дополнительно обрабатывать данные и извлекать выходные данные из сопоставленных данных на основе логики задания.

Когда мы более подробно рассмотрим, как работает задание Map Reduce, мы увидим, что Hadoop выполняет задание с точки зрения задач отображения. Задание разделено на множество частей, которые мы называем разделениями, и для каждого разделения назначается одна задача карты. Размер разделения важен для времени выполнения для достижения результата. В идеале размер разделения должен быть размером с блок HDFS.

Ниже приведены некоторые другие ключевые термины:

  • Оптимизация местоположения данных

Запуск задачи карты на узле, на котором входные данные находятся в HDFS.

  • Объединяющаяфункция

Уменьшает количество данных, передаваемых между картой и фазой сокращения. Он оптимизирует результат карты и формирует вывод для функций карты и передает его функциям сокращения.