1 引言
大数据技术和产业目前正处于蓬勃发展过程中,新的技术、应用层出不穷,越来越多的客户已经意识到数据作为企业核心资产的重要意义,也都有意愿向该领域的系统建设投资,这也吸引了大量的厂商参与到这一领域。但是,大数据产业在发展过程中,也存在着以下一些问题:
(1) 技术驱动而非需求驱动,导致系统对客户实际业务的帮助不大:很多客户只是听说大数据能解决很多问题而上了大数据系统,但并不知道怎样用大数据来帮助自己解决问题。同样,很多厂商只是具备一定的大数据技术,并不深入了解客户的业务,所以也很难开发出真正能帮助客户解决问题的大数据应用。;
(2) 垂直化的应用开发方式,导致系统开发成本高周期长:目前行业内大量的大数据应用仍采用按项目垂直化的开发方式,项目之间缺少积累复用,每个项目几乎都是零基础的重新开发,造成系统开发周期长、成本高、质量难以保证。
2 大唐电信大数据平台及应用解决方案
2.1 解决方案的整体思路
针对以上问题,结合自身在大数据技术领域的深厚实力和多年来积累的行业应用软件研发实施经验,大唐电信以“平台+行业应用”的形式,推出了公司针对政务、社区、交通、水利、运营商等行业大数据市场的整体解决方案。该方案以面向多行业应用的大数据处理分析平台为基础,基于该平台提供的大数据管理与分析能力,并结合各行业自身的业务需求,提供面向多个行业的大数据分析应用,如下图所示:
2.2 大数据处理分析平台的功能
大数据处理分析平台是一个能够提供支撑大数据存储、处理与分析、展现、管理能力的基础平台,其主要功能包括大数据实时采集和预处理、大数据分布式存储、大数据高性能应用处理、多模态(表格、文件、对象及数据流等)数据的综合管理,高维度检索和可视化展现,以及大数据行业分析模型。平台覆盖了大数据生命周期中的采集、存储、计算、挖掘、管理等处理环节,其具体功能包括:
· 大数据采集:提供从行业应用系统、数据库、中间件等外部系统采集数据的服务,或者从大数据平台中向行业应用系统共享数据的服务。该功能解决了数据生产系统与大数据系统间的接口与解耦问题,提供大数据平台与外部系统间关系数据库型数据源、文件型数据源、事件型数据源等间的数据采集与ETL(抽取,转换,加载)。
· 大数据存储:提供分布式的数据存储服务,包括基于分布式文件系统的存储服务,以及基于分布式数据库系统的存储服务。
· 数据处理与分析:包括批处理、流处理在内的分布式计算框架服务,以及基于计算框架的数据查询服务、数据分析服务与数据挖掘服务。
· 数据展现与应用:用于对大数据平台系统内部的数据(特别是结果数据)提供结果展现服务,提供面向行业应用系统的数据交换服务。
· 数据管理:提供元数据管理以及数据质量管理功能。数据质量管理支持数据质量规则和数据质量流程的定制能力
· 系统管理:面向大数据集群提供分布式的集群部署管理功能、集群监控管理功能、集群服务协作管理功能。
2.3大数据处理分析平台的特点
· 灵活、多模态的大数据采集及管理。通过分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术,可灵活适应多模态大数据的数据采集及管理。
· 低成本、高性能的大数据存储。根据不同需求灵活采用HDFS、NoSQL数据库、内存数据库等多种存储技术,实现低成本高性能的大数据分布式存储。
· 满足多层次需求的大数据分析与可视化服务。支持全面高效的大数据高维检索、大数据分析与可视化服务,支持快速灵活的改变海量数据多维分析的维度,支持人工智能AI与机器学习ML算法,能更好地分析和挖掘数据深层面价值。
· 高可用、弹性可扩展的分布式系统部署。不需要昂贵专用存储、网络和服务器设备,支持高可用及横向扩展的分布式系统架构,硬件成本低。
· 良好的可管理性和用户体验。将引入的开源软件作为技术组件,与平台通过定义良好的接口进行集成,使组件松耦合、可管理、可监控、可升级,实现了良好的可管理性和用户体验。
3大唐电信大数据行业应用案例
基于大数据处理分析平台所提供的大数据管理与分析能力,大唐电信已研发了针对政务、社区、交通、水利、运营商等行业的大数据应用,并得到了成功推广。
3.1 互联网及宽带测速平台
互联网及宽带测速平台已在某部级单位完成了应用示范。该系统采用分布式架构,应用层和数据层网状分布,平台监测点覆盖中国除台湾外的所有省和运营商,包括国外主要国家和城市的7个监测点,目前400个左右的监测点位于系统的分布式末梢,北京数据中心是网状核心,负责核心数据处理和业务分析展示。
该平台网站已经面向公众开发,目前测速用户人数超过5万,平台涉及到的主机和设备400余台。在数据量方面,中心平台主动采集部分数据量1.2T/月,省平台主动采集部分数据量0.5T/月,被动数据量29G/秒。对于被动采集部分,因数据量太大,基础数据不保留,保存5分钟汇总数据3个月,数据库中放置天粒度以上的分析数据。
3.2 高速公路交通大数据分析平台
高速公路交通大数据分析平台已在某省高速公路管理局得到了应用。系统采集与整合高速公路交通路网运营的海量业务数据,分析高速公路断面交通量、OD数据、收费、路况、养护、气象、管控等业务数据,研究并建立路网调度决策支持模型、状态预测类模型、分析影响类模型、辅助决策类模型,开发路网调度决策系统、道路养护决策系统、机电设备养护决策系统、公众服务系统等软件系统,构建面向行业管理和公众服务的分析应用。
目前系统处理的数据包括微波车检数据6亿条/年、ETC数据1.5亿条/年,MTC数据 2亿条/年,高速路况数据 10万条/年,路面、机电养护及其他业务数据1000万条/年,视频、图像数据80PB/年。预计在未来2~3年内,该软件平台存储、处理的结构化数据量约在2000~3000亿条左右,非结构化数据量约在160~240PB左右。
4 结束语
我国政府高度重视大数据产业的发展,发展大数据已成为我国的国家战略。在这样的大环境下,将有越来越多的行业用户采用大数据技术作为科学决策的辅助手段。未来,大唐电信将不断优化大数据处理分析平台的能力,并结合行业需求推出更多的大数据应用方案,为我国大数据产业的发展做出自己的贡献。