平台简介
大数据时代,各行各业时时刻刻都在产生海量多样的数据,数据正在成为一种生产资料,对于挖掘行业新的经济增长点大有益处,大数据已经成为行业发展新的推动力。在海量数据场景下,传统数据库技术已无法满足其海量存储、高效处理和实时挖掘数据潜在价值的要求,迫切需要一套成熟稳定、高效便捷的大数据基础软件产品。
平台采用浪潮云海Insight HD产品,集合业界主流的新型大数据处理技术,包含Hadoop生态中的20+主要组件,提供统一的平台化管理运维,实现深度功能增强和性能优化,能够帮助客户轻松应对海量数据的采集、存储、计算、分析挖掘和数据安全等应用场景。
大数据应用平台部署在17个节点上,包含3个管理、14个计算存储节点,3个管理节点配置为128G内存,CPU为20核,16个计算存储节点配置为192G内存,CPU为40核。HDFS存储空间380T左右存。平台提供HDFS、Hive、Hbase、Spark2、Tez、Pig、Zookeeper、Hue、MapReduce、Sqoop、Flume、Storm、Yarn、kerberos、ranger、Nifi、Solr服务,满足大数据实时计算、离线计算等业务场景,同时通过多用户进行资源隔离,保证用户数据安全
平台架构
多源数据的高效集成
提供多源数据(包含结构化、半结构化和非结构化数据)的集成能力,提供高吞吐、可扩展的数据总线和数据分发功能,支持批量加载、实时加载、数据库加载、文件加载等多种加载方式。
异构数据的海量存储
提供基于分布式文件系统和并行架构的大数据存储能力,支持PB级数据规模的高可靠和高可用存储,支持存放多种文件格式,例如关系数据库等结构化数据,日志、网页等半结构化数据,以及视频、图片、文档等非结构化数据。
场景丰富的计算框架
面向不同业务场景,提供离线计算、流式计算、内存计算、图计算等丰富的计算框架,支持计算任务流程编排、计划安排,提供标准SQL的数据访问能力。
海量数据的实时分析挖掘
提供涵盖多源数据接入、数据特征提取、算法模型训练、算法模型评估和结果预测等完整机器学习过程的大数据分析功能。支持SVM、朴素贝叶斯、协同过滤、线性回归等算法,预测过程基于内存进行迭代式计算,并且支持分布式计算,具备极强的扩展性,可以应对海量数据分析。
统一的平台化管理监控
提供针对全部20+组件的自动化安装部署,并提供平台级的配置管理、监控告警等统一运维管理能力。
便捷易用的数据操作
提供图形化交互式数据操作工具和客户端,用户可以方便的通过Web UI界面访问数据、定义和提交作业任务、查看组件和任务运行状态、分配数据空间、隔离和共享数据资源等。
立体化的数据安全
提供统一的用户认证、授权体系,完善的数据安全和资源分配机制,实现了数据资源的安全性、可维护性、可用性、可信性。
组件 | 说明 |
Sqoop | Hadoop和结构化数据存储(如关系数据库)之间的数据交换工具 |
Flume | 分布式流式数据收集工具 |
Kafka | 高吞吐的分布式消息系统 |
HDFS | Hadoop分布式文件系统 |
YARN | 资源调度、隔离、监控的资源管理框架 |
MapReduce2 | Hadoop新一代MapReduce计算框架 |
Tez | 基于Yarn的新一代Hadoop查询处理框架 |
Spark2 | 大规模数据快速处理的通用引擎 |
Storm | 分布式流计算框架 |
Solr | 基于Lucene的全文搜索平台 |
Hive | Hadoop之上的数据仓库,提供类SQL语言进行大数据集或大表的存储、查询和分析 |
HBase | 分布式非关系型数据库,提供统一的配置管理和数据同步 |
Pig | 分布式大数据集的脚本平台 |
Hue | 可视化Hadoop开发工具,满足与Hadoop集群进行交互式数据处理和分析 |
DataSpace | 可视化数据空间管理组件,满足多用户间的数据资源隔离与共享 |
Manager | Insight HD大规模集群的可视化安装部署、监控运维及管理工具 |
ZooKeeper | 高可靠分布式协调的统一服务 |
Kerberos | 基于票据的通用用户认证工具 |
Ranger | 综合安全管理组件 |
NiFi | 一个易用、强大、可靠的系统,用于处理和分发数据 |
大数据主要组件部署
大数据组件 | 子服务 |
HDFS | ActiveNamenode |
Standby NameNode | |
DataNode | |
Yarn | Active ResourceManager |
Standby ResourceManager | |
NodeManagers | |
MapReduce2 | Historyserver |
MapReduce2 Client | |
Tez | Tez Client |
Hive | HiveServer2 |
Hive Client | |
HBase | Active HBase Master |
RegionServers | |
Pig | Pig Client |
Sqoop | Sqoop Client |
ZooKeeper | ZooKeeper Server |
ZooKeeper Client | |
Storm | DRPC Server |
Nimbus | |
Storm UI Server | |
Supervisors | |
Flume | Flume |
Kafka | Kafka Broker |
Spark2 | Spark2 Client |
DataSpace | DataSpace |
NiFi | NiFi |
Solr | Solr |