Один человек не может выполнять все работы. Чтобы ускорить выполнение работы, распределяйте работы между разными людьми

Прежде чем понять, что такое Hadoop, дайте мне знать ответ на этот вопрос.

«Может ли ваш компьютер обрабатывать гигабайты или терабайты данных?»

Бизнес-сценарий 1:

Когда у нас будет 900 МБ данных, мы хотели бы использовать Data Analytics и Machine Learning. Способны ли традиционные аппаратные средства обрабатывать 900 МБ данных?

Как инженер данных или специалист по данным, как справиться с ситуацией?

Итак, как Hadoop помогает нам обрабатывать огромные или огромные объемы данных.

Hadoop — это программное обеспечение с открытым исходным кодом, которое помогает нам хранить и обрабатывать большие объемы данных. Он предоставляет программную основу для распределенного хранения и обработки больших данных с использованием основных компонентов. это платформа, позволяющая выполнять распределенную обработку больших наборов данных в кластерах компьютеров с использованием простых моделей программирования

Подождите... Что такое хранилище, похожее на БАЗУ ДАННЫХ?

Является ли Hadoop DATABASE похожей на MySQL, PostgreSQL, Oracle, Mango DB и т. д.?

Нет. HADOOP не является базой данных. Принцип Hadoop — это распределенная файловая система, которая может хранить и обрабатывать огромное количество кластеров данных на компьютерах.

Основные компоненты Hadoop

Экосистема Hadoop:

  1. HDFS (распределенная файловая система Hadoop)
  2. Уменьшение карты
  3. ПРЯЖА
  4. HBase
  5. свинья
  6. Улей
  7. Скуп
  8. Флюм
  9. Кафка
  10. Работник зоопарка

Спасибо за прочтение. В следующем блоге мы поговорим о глубоком понимании каждого компонента с бизнес-вариантом использования.