!41 完善hadoop组件的介绍文档

From: @chenjunbiao-001 
Reviewed-by: @wuzeyi1 
Signed-off-by: @wuzeyi1
This commit is contained in:
openeuler-ci-bot 2022-03-04 01:16:04 +00:00 committed by Gitee
commit 3fa0a2444f
No known key found for this signature in database
GPG Key ID: 173E9B9CA92EEF8F

View File

@ -1,10 +1,15 @@
# hadoop
#### 介绍
A software platform for processing vast amounts of data
Hadoop是一个用Java编写的Apache开源框架允许使用简单的编程模型跨计算机集群分布式处理大型数据集。Hadoop框架工作的应用程序在跨计算机集群提供分布式存储和计算的环境中工作。Hadoop旨在从单个服务器扩展到数千个机器每个都提供本地计算和存储。
#### 软件架构
软件架构说明
Hadoop框架包括以下四个模块
- Hadoop Common: 这些是其他Hadoop模块所需的Java库和实用程序。这些库提供文件系统和操作系统级抽象并包含启动Hadoop所需的Java文件和脚本。
- Hadoop YARN: 这是一个用于作业调度和集群资源管理的框架。
- Hadoop Distributed File System (HDFS): 分布式文件系统,提供对应用程序数据的高吞吐量访问。
- Hadoop MapReduce这是基于YARN的用于并行处理大数据集的系统。
自2012年以来“Hadoop”这个术语通常不仅指上述基本模块而且还指向可以安装在Hadoop之上或之上的附加软件包的收集例如Apache PigApache HiveApache HBaseApache Spark等。
#### 安装教程