第07版:科技观察

分布式数据库技术与产业快速走向成熟

作者:中国信通院云大所 马鹏玮

出版时间:2020-07-31

全文共2616字

A- A+




  诞生于20世纪60年代的数据库管理系统(DBMS,以下简称“数据库”)软件,作为集成了数据存储与计算功能且专门管理数据的一类软件,早已成为各行业IT系统中必不可少的基础软件。今天,随着数字经济的到来,数据量呈现爆发式增长,数据管理模式也发生着急剧变化,传统的集中式架构数据库在很多场景下显得捉襟见肘,新型的分布式架构数据库正逐渐成为数据库技术研究和应用的热点。目前,我国分布式数据库产业已经进入蓬勃发展期,各类企业纷纷推出相关产品,金融等行业用户也已开始尝试。不过,分布式数据库在落地应用中仍面临诸多挑战,亟须多方力量联合起来协同推进。

分布式数据库:未来发展的必由之路

  数据库从集中式向分布式转型,受海量数据存储、高并发数据计算、微服务架构转型等市场内在需求的驱动,逐渐成为数据库技术未来发展的必由之路。

  一方面,集中式数据库能力扩展出现“瓶颈”。早期数据库技术依赖底层集中式硬件能力的提升而提高能力上限。但随着摩尔定律逐渐失效,集中式硬件能力出现“瓶颈”,无法继续提升集中式数据库能力,所以利用水平扩展提升处理能力的分布式技术成为解决方案。

  另一方面,分布式数据库的技术难点逐渐得到了解决,具备了应用条件。分布式数据库前期没有得到大规模发展的原因在于全局一致性、大规模并行技术的不成熟。随着各大互联网公司投入巨大精力解决相关问题以及新型理论的出现,分布式数据库前期遇到的技术难点逐渐得到了解决,从而实现了成功应用。

四类数据库:快速拥抱分布式架构

  数据库按照应用场景,可以分为分析型数据库、事务型数据库、时序数据库、图数据库四大类。当前,四类数据库均处于快速向分布式架构转型进程之中。

  分布式分析型数据库已经成为成熟的商用产品。分析型数据库主要是通过某种算法,从海量数据中提取有效信息并转化为统计性的关键信息和指标,如统计上一年度公司总收入等。它将数据打散到多个计算节点上,基本不需要节点间进行频繁交互,所以基本可以保证各节点独立计算。目前,分布式分析型数据库已经广泛应用于金融资产盘点、电信流量分析、互联网用户画像等业务系统。

  分布式事务型数据库正在逐渐被市场认同。事务型数据库的主要特征是能够保证事务操作的正确性,主要应用于金融、电信行业的账户和计费等核心系统。而在分布式转型过程中,由于事务操作将以分布式的形式执行,因此正确性难以保证。但是,随着中间件架构和新型一致性协议的逐渐成熟,各大互联网公司已经成功将分布式事务型数据库用于支撑自身大规模的事务操作,验证了可行性,所以目前金融、电信等传统行业正在逐步尝试相关技术。

  分布式时序数据库为未来物联网发展打下基础。时序数据库的主要特征是能够支持并发量大、持续性强、携带时间戳的数据类型,被广泛应用于电力和工业设备监测领域。5G商用带动了物联网的快速发展,未来将会产生大量时序型数据的处理需求,这就要求现有时序数据库必须完成分布式转型,从而应对未来物联网领域数据规模的爆炸式增长。

  分布式图数据库正成为国内企业研发的热点。关联分析、知识推理、搜索推荐等应用创新正不断提升社交、电商、金融等行业的信息化能力。图数据库技术凭借其能够有效提升关联型数据的价值挖掘能力,逐渐成为相关领域关注的热点。但是,由于单机型图数据库存储能力存在上限,计算速度较慢,无法有效实现对相关业务的支撑,所以国内各大企业均在积极推动自身分布式图数据库的产品研发。

产业格局:呈现百家争鸣态势

  随着数据库分布式转型浪潮的出现,由甲骨文、IBM、微软统治的传统数据库市场格局开始发生变化,国内各类企业纷纷把握机遇,试图借助数据库分布式转型浪潮在未来的分布式数据库市场获得更大份额。

  互联网企业尝试将内部自用经验转化为商用产品。以百度、阿里巴巴、腾讯为代表的互联网公司,前期基于自身创新型业务的发展需求,利用自有技术人员,将各类开源产品技术完成整合和升级,成功支撑了企业内部相关业务体系的发展。目前,各互联网公司正在积极推动将自身分布式数据库技术积累完成商业化改造,以产品服务形式对外进行输出。

  传统数据库公司正在推出分布式系列产品。以南大通用、人大金仓、达梦数据库等企业为代表的传统数据库公司,除维持自身原有数据库产品体系的升级演进之外,纷纷推出相对应的分布式版本数据库系列,如GBase 8a、DMTDD等,从而顺应产业发展趋势。

  综合型IT服务企业均开始覆盖相关产品类别。以华为、中兴、华三等企业为代表的综合型IT服务企业,在原有硬件设备、信息管理系统等产品体系的基础上,迅速推出了分布式数据库产品类型,如GaussDB、GoldenDB等,同时成立相关产品部门进行产品研发,利用自有IT服务能力进行销售和运维等工作。

  目前,百家争鸣的产业格局对应用侧选型和持续使用带来了一定困扰。对此,中国信通院从技术标准制定出发,已经梳理出相关的选型依据、产业报告和各产品测试结果,切实推动分布式数据库快速落地。

应用落地:呼唤成熟经验

  从整体上来看,分布式数据库仍处于发展初期,在技术成熟度、成熟应用经验方面均存在一定欠缺,所以在实际落地过程中仍需注意解决相关问题。

  其一,正确认识业务端的改造工作。在实施分布式数据库的过程中,重要的一项工作为应用适配和调整优化。因分布式数据库的技术特征与传统集中式数据库存在很大差异,所以会要求应用侧进行局部性调整。

  其二,继续使用旧管理策略会制约分布式数据库的发展。分布式数据库落地后,管理策略将面临从原有单机数据库管理到分布式多机数据库管理的转变,所以相应的部署、容灾、报警、巡检等流程均会发生改变,若管理制度仍然按照单机数据库方案制定,就会面临不匹配的问题。

  其三,应重视基础环境建设。分布式数据库作为分布式计算与存储系统,对网络、机房面积、能源供给等基础环境有着非常高的依赖和要求,例如,同城同数据中心内部通信、跨数据中心的多数据中心容灾/灾备或者多活部署都需要超强的网络资源,所以基础环境建设要具备相应的能力。

  * * *

  分布式数据库受市场内在需求驱动,是未来数据库技术发展的必由之路。当前,各类数据库技术均朝着分布式转型,已经取得了一定的成果。与此同时,各类型企业也在积极进行布局,希望赢得未来的市场份额。但是,分布式数据库仍处于发展初期,缺乏成熟的商用经验,在落地过程中仍面临挑战,仍需产学研多方联动,推动相关技术的快速进步。

(010)64963755