信息化建设

当前时间:

大数据应用平台

发布者:张鲁发布时间:2020-10-29浏览次数:2759

平台简介

大数据时代,各行各业时时刻刻都在产生海量多样的数据,数据正在成为一种生产资料,对于挖掘行业新的经济增长点大有益处,大数据已经成为行业发展新的推动力。在海量数据场景下,传统数据库技术已无法满足其海量存储、高效处理和实时挖掘数据潜在价值的要求,迫切需要一套成熟稳定、高效便捷的大数据基础软件产品。

平台采用浪潮云海Insight HD产品,集合业界主流的新型大数据处理技术,包含Hadoop生态中的20+主要组件,提供统一的平台化管理运维,实现深度功能增强和性能优化,能够帮助客户轻松应对海量数据的采集、存储、计算、分析挖掘和数据安全等应用场景。

大数据应用平台部署在17个节点上,包含3个管理、14个计算存储节点,3个管理节点配置为128G内存,CPU20核,16个计算存储节点配置为192G内存,CPU40核。HDFS存储空间380T左右存。平台提供HDFSHiveHbaseSpark2TezPigZookeeperHueMapReduceSqoopFlumeStormYarnkerberosrangerNifiSolr服务,满足大数据实时计算、离线计算等业务场景,同时通过多用户进行资源隔离,保证用户数据安全

 

平台架构

多源数据的高效集成

提供多源数据(包含结构化、半结构化和非结构化数据)的集成能力,提供高吞吐、可扩展的数据总线和数据分发功能,支持批量加载、实时加载、数据库加载、文件加载等多种加载方式。

异构数据的海量存储

提供基于分布式文件系统和并行架构的大数据存储能力,支持PB级数据规模的高可靠和高可用存储,支持存放多种文件格式,例如关系数据库等结构化数据,日志、网页等半结构化数据,以及视频、图片、文档等非结构化数据。

场景丰富的计算框架

面向不同业务场景,提供离线计算、流式计算、内存计算、图计算等丰富的计算框架,支持计算任务流程编排、计划安排,提供标准SQL的数据访问能力。

海量数据的实时分析挖掘

提供涵盖多源数据接入、数据特征提取、算法模型训练、算法模型评估和结果预测等完整机器学习过程的大数据分析功能。支持SVM、朴素贝叶斯、协同过滤、线性回归等算法,预测过程基于内存进行迭代式计算,并且支持分布式计算,具备极强的扩展性,可以应对海量数据分析。

统一的平台化管理监控

提供针对全部20+组件的自动化安装部署,并提供平台级的配置管理、监控告警等统一运维管理能力。

便捷易用的数据操作

提供图形化交互式数据操作工具和客户端,用户可以方便的通过Web UI界面访问数据、定义和提交作业任务、查看组件和任务运行状态、分配数据空间、隔离和共享数据资源等。

立体化的数据安全

提供统一的用户认证、授权体系,完善的数据安全和资源分配机制,实现了数据资源的安全性、可维护性、可用性、可信性。

大数据平台组件

组件

说明

Sqoop

Hadoop和结构化数据存储(如关系数据库)之间的数据交换工具

Flume

分布式流式数据收集工具

Kafka

高吞吐的分布式消息系统

HDFS

Hadoop分布式文件系统

YARN

资源调度、隔离、监控的资源管理框架

MapReduce2

Hadoop新一代MapReduce计算框架

Tez

基于Yarn的新一代Hadoop查询处理框架

Spark2

大规模数据快速处理的通用引擎

Storm

分布式流计算框架

Solr

基于Lucene的全文搜索平台

Hive

Hadoop之上的数据仓库,提供类SQL语言进行大数据集或大表的存储、查询和分析

HBase

分布式非关系型数据库,提供统一的配置管理和数据同步

Pig

分布式大数据集的脚本平台

Hue

可视化Hadoop开发工具,满足与Hadoop集群进行交互式数据处理和分析

DataSpace

可视化数据空间管理组件,满足多用户间的数据资源隔离与共享

Manager

Insight HD大规模集群的可视化安装部署、监控运维及管理工具

ZooKeeper

高可靠分布式协调的统一服务

Kerberos

基于票据的通用用户认证工具

Ranger

综合安全管理组件

NiFi

一个易用、强大、可靠的系统,用于处理和分发数据

 

大数据主要组件部署

大数据组件

子服务

HDFS

ActiveNamenode

Standby   NameNode

DataNode

Yarn

Active   ResourceManager

Standby   ResourceManager

NodeManagers

MapReduce2

Historyserver

MapReduce2   Client

Tez

Tez Client

Hive

HiveServer2

Hive Client

HBase

Active HBase   Master

RegionServers

Pig

Pig Client

Sqoop

Sqoop Client

ZooKeeper

ZooKeeper   Server

ZooKeeper   Client

Storm

DRPC Server

Nimbus

Storm UI   Server

Supervisors

Flume

Flume  

Kafka

Kafka Broker

Spark2

Spark2 Client

DataSpace

DataSpace

NiFi

NiFi

Solr

Solr

 


关闭