摘要: 此次微盟删库事件,对于以云计算为代表的互联网技术架构企业服务行业整体都是一次警醒,随着产业互联网的深化,需要进一步融合对企业级服务的认知和理解。

文丨钛资本研究院(ID:tmtcapital)

2月23日,国内领先的SaaS服务商微盟遭遇了恶性的删库事件,直到3月1号才将数据全面找回,各项业务逐步恢复正常。该事件暴露了中国企业长期以来在IT建设方面重业务支持和实现,而在安全运维、灾备容灾等支撑体系重视和投入不足的问题,对业界造成了极大的震撼,整个行业围绕这一事件进行了热烈的探讨和深刻的反思。

从钛资本看来,也许该事件将成为中国IT系统建设转型升级的标志性事件,为此钛资本于2020年3月3日特别组织了一次线上研讨会,从对微盟删库事件本身的复盘分析入手,探讨了安全行业的一些本质特点以及IT转型演进的方向,另外,邀请了备份容灾、运维体系建设和数据安全的5位创业公司代表,对微盟进行诊脉并给出了相关的技术建议。本次会议特别邀请雷葆华主持,其他分享嘉宾有:

  • 钛资本首席技术架构师Steven

  • 数腾软件COO徐礼长

  • 云信达CSO李帆

  • 同创永益副总裁郑星

  • 精鲲科技CTO葛丁佳

  • 凯馨科技创始人孙诚

下面的内容是对本次活动各位嘉宾主要观点的梳理和提炼。

1、雷葆华:微盟删库事件复盘及网络安全行业的本质思考

从2月23号晚6:58分发生删库操作,到3月1日晚间发布公告宣布数据全面找回,整个过程历时1周。

从微盟删库事件,看安全的本质和IT转型方向

这次事件对微盟公司、微盟的300万客户及微盟管理团队个人都造成了严重的损失,是今年来最严重的删库事件。

从微盟删库事件,看安全的本质和IT转型方向

其实在IT行业删库事件频繁发生,大多数属于工程师在运维工作时的误操作,也有类似微盟这次主动删库的恶意攻击行为。

从微盟删库事件,看安全的本质和IT转型方向

微盟事件本质上是一个网络安全事件。网络安全从概念上来说是分层的,主要分为事件、威胁和风险三个层级,分别对应的是对抗、预防和控制:事件是网络安全里面最直接的,其内涵在于对抗,发生安全事件的时候,应急、响应、处置等都是在第一时间采取的行动;第二个层级——威胁,其内涵是预防,如果系统存在潜在的安全漏洞可能被利用,就形成了威胁。一旦发现了威胁,要马上采取办法消除漏洞。在安全行业中常常提到的漏洞扫描、风险加固、风险评估,这些都是发现威胁的手段和方法;最广泛的是风险,其内涵是控制。风险是不可避免的,但是资源是有限的,所以一般要将风险控制在可接受的范围内。为了控制风险,对于生产系统来说,业务连续性、灾难备份就是基础的技术手段。

这次的删库事件暴漏了微盟在管理运维体系中的权限分配方面存在很大的漏洞,对风险的意识也比较淡薄,在业务连续性、灾难备份部分都没有做好,在事件、威胁、风险三个层面都有问题。

其实在安全行业里面,最重要的是预防,预防意识高于一切。现在中国的网络安全市场规模是600多亿人民币,每年有20%多的增长率,但是网络安全的投入占IT投入的比例,全球是3.74%,美国是4.78%,而中国只有1.84%,说明中国的企业对于安全风险的防范意识不足。微盟删库事件给国内所有的IT服务商,尤其是往SaaS和企业服务转型的这些服务商敲响了一个警钟,一定会大幅提高他们的安全意识。

从微盟删库事件,看安全的本质和IT转型方向

网络安全行业本质上是一个以服务为核心的行业,它的复杂性在于任何一个安全体系的构成都是工具(技术)、管理制度和人三方面的结合,要符合组织的工作流程、管理制度、业务流程才能真正发挥作用。安全是攻防的过程,不能靠产品一蹴而就解决所有安全问题,还需要安全服务团队的持续投入,才能保持整个体系的安全。

下图是Gartner 2019年安全峰会上的一张图,可以看到2017—2023年全球安全市场复合增长率是10.3%,到2023年全球安全行业的市场收入是1370亿美金,其中最大的一块是安全服务行业720亿美金。

从微盟删库事件,看安全的本质和IT转型方向

安全行业具有两个特点:第一,没有任何一个单一产品可以解决所有问题;第二,没有一个安全厂家能解决所有安全问题。所以美国的安全市场,安全厂家之间的合作关系很密切,威胁情报、安全响应平台、NTA网络流量检测、EDR等都有专业厂商,且都有完善的API开放供合作伙伴调用,这就需要有一个集成商或者是客户的IT部门、安全运维部门有很强的能力把这些整合起来,形成一套完整的安全体系。在欧美整个安全行业的并购是特别频繁的,大多数的创业公司比较好的归宿就是被大的安全公司并购。未来中国的安全行业一定会往这个方向发展。因为只有这样,才能形成大而全的服务商和小而尖的产品商,从而更好的服务所有客户。

从工作流程来看安全体系的实施:第一步要做的是资产定义和发现,有哪些IT资产、有哪些生产系统、有哪些办公系统、有哪些员工的终端,其中哪些是办公终端、哪些是个人终端,如何去定义是第一步;资产定义和发现之后,要做漏洞检测与加固,其中最关键的是资产数据安全,包括数据的防泄密、磁盘加密、文档安全,另外是数据连续性保护,包括容灾备份、数据库安全、大数据保护都在其中;接下来需要做身份认证体系即权限管理,每个人的身份对应特定的权限能够接触什么程度的数据,能够登陆哪些设备,都要有全面严格的定义,是管理制度和业务制度的衔接;之后要在路径上部署防护设备,最常见的就是网络设备,防火墙、网闸、IDS、IPS、网络准入设备、防火墙、UTM等等,包括抗DDOS攻击等都是在网络路径上的。

还有就是端点上的EDR,端点检测与响应等最新的终端防护技术。在应用层有代码安全的解决方案、web应用扫描、web应用防火墙、网页防篡改,能够对应用系统软件的层面进行防护;有了这些系统部署之后,下一步要通过大数据平台去做一些信息的收集和处理,即安全管理和安全智能,并接入威胁情报服务。现在安全行业正在从被动防御向主动防御演进,应用人工智能分析挖掘未知威胁,比如NTA网络流量分析、用户行为分析、APT高级防御等。

从微盟删库事件,看安全的本质和IT转型方向

最后,网络安全还有一个特性就是其伴生性,它随着数字经济的扩展而延伸。伴生特性带来两个后果:一是随着数字经济的扩大,网络安全的天花板会很高,数字空间安全的重要性越来越强,在整个数字经济里的比重也越来越高,所以整个安全行业的发展空间很大,钛资本也是长期看好安全行业,愿意在这个领域做更深入的研究和产业推动工作;另外一个后果就是由于安全是伴生性技术,不同的行业、不同的用户、不同的系统对安全性的要求不一样,所以整个安全呈现出行业化、场景化、碎片化、规模小等特征,所以市场虽然很大,但是其中的情况十分复杂,这就意味着有很大的挑战。但是从投资角度来说,建议投资人多关注并购、整合,这是安全行业未来发展的一个必然趋势。

2、钛资本首席技术架构师Steven:微盟IT架构剖析及IT转型演进方向

微盟的整体架构,包括CRM系统,为用户提供运营管理、价格等等运营管理服务,还有商品管理、产品目录、订单处理、订单流程等,微盟本质上就是微商的后台系统。从功能上来看是一个2B2C的业务模式,其业务本质是一个2B的系统,除电商体系还有营销体系,包括前面的商家管理、用户中心、交易流程管理、前端的搜索导航等等,最前端的渠道层公众号只是入口层面。

微盟的基础架构,有监控系统,全局调用系统服务管理,使用的基础设施都是由腾讯提供的虚机、IaaS云服务,在上面有相应的消息中间件、缓存、流计算处理层、计算层、治理层、服务治理用dubbo,以及相应的服务管理、配置中心,再上面是基础工具、大数据服务、域名服务,最上层就是具体的业务层。所以从分层上来看,微盟是一个完善的支持网上电子商务的B端用户。

从运维架构来看,微盟是一个典型的SaaS服务模式,后台的产品架构完全引用互联网架构或是分布式架构。从整个应用体系来看,基础设施层用的是云端IaaS服务,往上一层数据存储层用SaaS。在虚拟化层,微盟使用Cloudstack,容器基于Docker,编排层采用K8,应用层的流量控制、权限管理都有相对应的,再往上有WAF、防火墙、堡垒机,相当完善。运维监控用Grafana做监控,有相应的数据库监控,Zabbix做告警,运营管理系统是持续集成。

此次的删库事件,从技术角度去看,执行删库动作的人,每一个执行都是合法的,都是经过授权的,没有任何问题。如果是从业务视角上去看,一个生产主库还在生产运行中数据就被全部删掉,这就是问题所在。

从微盟删库事件,看安全的本质和IT转型方向

回顾一下微盟3月1日发布的公告,数据已全面找回,并公布商家赔付计划。整个公告中,除了道歉和赔付计划,还有很重要的一段,即微盟要加强数据安全保护,将在三方面加强措施:第一方面,数据安全管理机制全面加固与整改,加强运维平台治理,本质上是完善安全管理制度,严格执行授权审批制度;第二方面,使用权限系统进行云资源管理,严格执行分级授权和最小及权限制度,对危险动作执行二次授权制度;第三方面、建立科学施策,进行细粒度的权限分级和授权,同时严格审查堡垒机操作日志,发送安全审计报告。

其中措施二,叫做灾备体系建设,能够实现多云异地冷备:一,微盟将建立多云灾备体系,在北京、上海、南京等地建立全备份的冷备系统架构;二,将建立高可用的同城双活架构;三,云上所有云主机每天起用快照策略,保证全量和增量备份。这些措施能够暴露出来,在出事之前,微盟连每天的增量备份很可能都没做,或者是只做了最关键的几个库第四,所有非结构化数据使用cos对象存储进行归档,然后进行数据存放多地冷存储,这就意味着现在包括之前,微盟对于非结构化数据也可能是没有备份和归档的;第五,建立月季度级别的定期演练机制和制度,这些都是微盟之前所存在的缺陷。

如果作为一个企业级应用,即使是用最传统架构,对于关键的应用,首先采用双机,其次肯定会配一个磁带机,再配一个备份软件,然后按照每天增量备份,这是做企业级软件的基础常识。企业级的核心系统,关系着一个企业业务的连续性问题,如果核心系统宕机,业务连续性就会断掉,当一个企业的业务停滞一段时间就会垮掉。所以云已经是一个默认的基础架构,未来就是云的世界,是容器化、微服务的世界,大量的企业应用将会上云。

在2B的领域,作为IT的供应商,现在是处于什么样的阶段?如下图, IT可以分为四个阶段。在1.0的阶段主要关注技术的发展,2.0阶段关注的是IT治理,到了3.0阶段,关注业务模式的创新。现在处在3.0—4.0演变的阶段,关注的是在基础技术架构演进的情况下,如何将治理和创新融合在一起。

从微盟删库事件,看安全的本质和IT转型方向

在IT 1.0、2.0阶段,实际上IT和业务是分离的,在2.0往3.0的阶段IT主要是支撑业务,到3.0的时候互联网架构兴起导致IT和业务渐渐融合在一起,到4.0阶段IT和业务是高度融合的。一些行业已经到了4.0阶段,一个典型的例子——微盟的IT与业务是完全融合的,业务完全是用IT系统实现的,所以当IT系统宕掉,微盟的业务就会随之停止,而且这种演变在不同的行业中、企业中都在发生,这也就是为什么微盟出现问题以后,产生的影响非常大,因为现在大部分公司已经进入到了4.0阶段。

这件事情使我们重新考虑,在互联网架构时代,每天都在谈集群、分布式,原来在互联网架构中所鄙视的传统架构中的考量点是不是真的不需要继续考虑了?但现实证明,即使技术在更新和进步,但是企业服务的基础需求没有变化,那就一定要满足这个需求。现在越来越多的企业在用云服务,不仅仅用基础设施IaaS层面的服务,还逐步用PaaS服务以及SaaS服务,这时候如何保证2B应用能够真正的安全,才是最重要的点。

3、数腾软件COO徐礼长:防、治结合,才能保护业务连续和数据安全

微盟早先的灾备措施是部署在腾讯云上,腾讯云有三个副本,但是这三个副本的数据是完全一样的,如果删除了一个库,三个库的数据都会消失,只能防备物理故障。而人为的误操作,或者中了病毒,或者人为故意破坏都属于逻辑故障,这种逻辑故障仅靠公有云的三副本措施是没办法防备的,这是第一个层面。

第二个层面,微盟对外公布有数据备份,但是这个备份没有保存在不同的存储介质。这意味着如果数据删除了,可能几份数据都没了,如果有冷备,可以保存在带库或者其它的存储介质上,就不会出现这种删掉一个库,几个库都没了的情况。

第三个层面,微盟没有一个本地的快速恢复应急系统

从此次事件来看,要保证业务连续和数据安全,就要从两个维度来看,一个是防,一个是治。首先要防,对于企业重要的业务系统,要做好3、2、1的方案,3就是要有三个副本,2是有两种不同形式的存储介质,1是要有本地快速恢复系统。防是件很难的事情,即使基础架构做得很完备了,但还是无法阻止此类事件发生,唯有做到防治结合,才能确保业务持续的运行和数据安全。

随着云计算的发展,灾备又分为传统灾备和云灾备,微盟具备一些传统的灾备措施,从技术层面来讲,这种传统灾备对于微盟SaaS应用来说有先天的不足。数腾云灾备产品怎么做到在防备逻辑故障的同时帮助用户快速恢复业务呢?首先是基于云架构的一体化的整机备份,保护的不仅仅是数据,还有数据库、应用和系统环境,如果业务系统遭遇灾难性事件,数据云灾备平台可以快速地(分钟级)将业务恢复到发生故障前的任意时间点(解决逻辑错误),然后再去定位故障,修复故障,从而做到把灾难的影响降到最低。

从微盟删库事件,看安全的本质和IT转型方向

这是数腾云灾备的总体架构图,一套技术不仅能够帮助用户保护传统的IT架构,也能够保护云的架构,是国内首家实现了传统架构和云架构灾备的统一,备份、容灾和仿真演练的统一。通过将业务底层和硬件平台解耦,真正做到跨异构云的灾备。数腾云灾备平台还为企业提供一个攻防演练的仿真环境,用户可以随时随地开展灾备演练,解决了传统灾备演练难的难题。

从微盟删库事件,看安全的本质和IT转型方向

4、云信达CSO李帆:CDM技术可有效提升数据恢复的RTO

首先来看对于业务数据保护技术的全貌,涉及到业务和系统安全的时候,可分成安全保密和安全可用两部分。安全保密不再多说,而安全可用的目的主要是保证业务连续性,以及防止数据的丢失。针对不同需求,派生出冗余高可用、容灾技术和备份技术这样三种数据保护技术。

这三种技术各有所长,冗余高可用技术,是当系统内部出现故障时确保系统依然可以提供业务,而容灾指的是整个站点级别出现整体故障的时候,业务仍然可以使用。因此,本地高可用和远程容灾复制技术,都是着眼于抵御基础设施的故障,从而保障业务持续运行不中断。这些技术制造的多份冗余数据,都是确保“当下”的数据在多个地方都有,而不关心传播的数据正确与否,也不能保障快速回退到某个“过去”的正确的数据。要忠实的记录生产系统在各个时间点上的数据全貌,从而抵御人为错误和逻辑错误的技术,这恰恰就是备份技术的用武之地。

微盟事件的本质是系统和设备本身没坏,但因为人为的灾难导致数据被错误的改变,进而蔓延到整个运行环境,彻底搅乱了应用系统,造成了毁灭性的数据逻辑灾难。在这种情况下,多副本冗余和各种容灾技术都拯救不了微盟。

从微盟删库事件,看安全的本质和IT转型方向

历史总是惊人的相似的,年少气盛时往往不擅长从过去的经验中吸取教训。二十年前,企业IT市场迷信IBM、HP、Oracle,以为选了最贵的厂家,为什么还要再找独立第三方的专业备份公司呢?现在很多人都说,都已经上云了,为什么还要备份呢?

云有多个副本,云数据库是分布式的,但是这些号称N个9固若金汤的平台,让全面上云的小企业遭受丢失数据的灭顶之灾是屡见不鲜。这些貌似健壮高度可用的微服务模块一个个都是紧密耦合在一起,当有出现删库或其他数据逻辑错误的重大事故,会如同火烧连营一样,一个一个忠实地把混乱蔓延开去。当系统连接的越紧密,传播错误数据的速度就会越快。所以冗余也好,容灾也罢,是没办法解决数据错乱的问题的。双活容灾和冗余,保护的是当前而不是恢复到过去。

那么,是不是把规章制度定的非常完备,就不会再出现这些事故了呢?很可惜,再好的人都有可能会犯错,没有绝对不犯错的组织。所以对整体而言,有一个可靠的备份技术是云计算时代容灾建设的永恒话题,企业必须备份数据这颗后悔药,这根救命稻草,以便必要时壮士断腕恢复到过去。

为什么过去和现在都发生了备份技术不被重视的情况呢?还有很多企业即使部署了备份,真出事儿的时候,还是缓不济急,操作生疏,还动不动就恢复不成功呢?这就会牵扯到系统数据恢复目标时间RTO(Recovery Time Object)这个字眼。

传统备份是从基于磁带这种流式存储而发展出来的私有备份集打包格式,这种数据是没有办法直接使用的。如果需要恢复备份数据,首先需要准备足够空间的恢复存储,然后将故障点最近一次全量备份、与之前历次增量备份数据找到,依次拷贝出来,再恢复成原始磁盘格式。

这个过程带来的RTO恢复时间,是小时级到天级的,且恢复时间与需要恢复的数据成正比。因此,传统备份的数据恢复的体验,是非常不好的。但遗憾的是,二十年弹指一挥间,根本没有真正有效的技术能代替它。久而久之,备份数据成为企业内沉默的暗数据,CIO都希望永远不要用到它,因为一旦要动用备份数据恢复,意味着必有重大的人为错误。很多企业,认为备份是个必要但不重要的投资,更多企业几乎是没有成建制的备份,比如微盟,根本就是在裸奔。

从微盟删库事件,看安全的本质和IT转型方向

2016年,Gartner正式接纳CDM技术(Copy Data Management)为存储和数据保护领域重要的新兴技术,名唤为副本数据管理。CDM是一整套完整的二级存储副本数据管理平台,它端到端拉通了数据备份保护、副本数据储存和虚拟副本使用这样全生命周期的数据管理领域。CDM采取永久增量的定时备份技术,数据源支持主流的数据库、虚拟化、文件、存储和云平台;通过备份获取到的数据,会自动生成强一致性的虚拟全量镜像副本,以原生磁盘格式保存在CDM本地纳管存储之上,形成一系列活跃的黄金副本,可供二级应用系统虚拟挂载成多份副本直接使用,将RTO从小时级至天级,缩短为稳定的分钟级。

CDM多被用于构成与生产系统解耦的二级应用环境的存储部分,一连串具有时间戳属性的虚拟全量镜像,对运维而言,可同时用作快速恢复验证(无须停生产业务)、故障时应急拉起,对开发测试、报表分析、合规审计而言,可以一体化支撑多项敏捷数据服务。

因此CDM设备突破了原有PBBA备份专用一体机设备的领域,改写Gartner市场分类为B&R备份及恢复一体化设备。CDM产品是承托企业双态IT运行的理想数据管理技术。在稳态生产系统中,通过整合COPY,降低重复数据占用存储,提高基础设施运维的效率;在敏态IT中,可以作为数据管理和跨域复制,为敏态IT和第二存储(Secondary Storage)赋能。

更为难得的是,CDM技术在数据获取的设计,承袭了定时计划备份的优点,不需要持续不断的去影响生产系统的存储IO,把对生产的影响降低至安全可控的地步,还可以跨平台提供丰富、实用、敏捷的数据服务能力。因此大型企业客户纷纷将CDM技术视作传统备份的理想替代。

5、同创永益副总裁郑星:建立分析、计划、管理三位一体的业务连续性解决方案

把本次事件相关联的各方分成三层,首先最底层的IaaS层基础设施服务提供商腾讯云,中间受影响最大的微盟,还有数百万微盟上的SaaS商户,都受本次事件影响比较大。 

首先,从业务模式说起。微盟是一个典型的B2B2C业务模式,已经演进到了互联网2.0的阶段,比原先的2C模式要承载更大的商业价值和社会责任。

第二,风险意识。很多互联网创始人走互联网技术架构路线,都是从原来2C的模式演进而来,所以在风险意识方面不同于原先的2B服务提供商,导致因定位不同而引发更多的风险。

第三,思维模式。近两年创新创业潮之后,大量的创始人在业务高速增长阶段,更多聚焦于业务发展和发展的敏捷性,从而忽视了安全。

第四,管理层。微盟管理层在有关于风险和业务连续性方面的意识缺失,对比美国的上市公司,他们有塞班斯法案对上市公司的风险起到监管作用,这是管理层的责任。

第五,技术团队。微盟是用2C模式在做技术和运营,没有考虑到用户是B端客户,因此就没有考虑备份、风险、业务连续等问题。

拿银联数据与微盟进行对比,银联数据是一个为全国数百家商业银行提供卡系统托管的服务商,其典型业务模式和微盟非常类似,都是B2B2C。基础设施托管在中国银联的数据中心,作为老牌金融机构,银联很早就建立了两地三中心的架构。在业务层面,银联数据会做不同业务层面的演练,对租户负责,面向银监的监管合规,2019年通过了22301的认证。

在金融行业,商业银行的卡系统,按照金融机构监管要求对业务分类分级,被划分为重要应用系统,有三个优点:第一有明确的备案,第二需要定期切换和演练,第三对于事件应急,如果其业务中断超过30分钟会立刻上报银监会。数据中心层面,腾讯云是微盟的股东,本次数据恢复功不可没,腾讯云很早就通过了ISO 22301认证,虽然通过了业务连续性的体系,但是只考虑云的数据安全,对客户的业务连续性和业务数据的可恢复性关心较少。

银联数据中心作为国内金融行业中领先的金融机构,很早就布局了北京、上海两地三中心的架构,重要系统都已经成为应用级的灾备,其数据备份、基础设施、安全性,都考虑得比较全面。

从微盟删库事件,看安全的本质和IT转型方向

同创永益推出业务连续性三位一体的解决方案,从不同的层面、不同的角度面向一个组织,聚焦于业务连续,形成业务连续性比较完备的体系。

从三个层面来看这个体系:第一个层面是分析,包括在线业务影响分析、风险分析,识别关键业务所面临的关键风险,如何去应对降低风险才是最关键的;第二,业务连续性计划又称为BCP,从BCP的角度去看,一旦有紧急事件发生,怎么样能够快速有序的组织人员、组织力量去响应、处置、决策、恢复,这是BCP所起到的作用;第三,业务连续性管理系统,软件化和SaaS化落地实现。整个的业务连续方案,包括分析规划,组织提升、技术落地三个层面。

从微盟删库事件,看安全的本质和IT转型方向

此次微盟事件,如果建立了业务连续性体系之后,应对此次事件能够提升和改善的地方有哪些呢?

首先事前应该建立BCM体系以及业务连续性计划,要做持续的风险分析,定期的真实演练。在业务中断事件发生之后,管理层接到报告,就应该快速启动业务连续性计划,遵循预案完成相关的人员召集、灾难的会商、决策。在恢复和重启阶段,技术团队需要做分钟级应用系统的恢复,快速恢复客户的业务,其次是数据的恢复和补录。在事后要考虑持续提升自身业务连续性,更新完善BCP,微盟作为B2B2C最重要的中间2B的一环,要向下优化整个IaaS服务商的能力,把业务连续性能力再次提升,可以面向商户提供不同等级的业务连续性服务。下图这是我们给微盟做提升思路的建议。

从微盟删库事件,看安全的本质和IT转型方向

6、精鲲科技CTO葛丁佳:缺少流程管控的运维体系存在大量漏洞和风险

随着科技的发展,越来越多的互联网企业强调用户战略,通过快速迭代换来足够的市场竞争力和吸引力,也给运维领域带来了一个新的名词DevOps。DevOps是透过自动化“软件交付”和“架构变更”的流程,来使得构建、测试、发布软件能够更加地快捷、频繁和可靠。DevOps由“Development(开发)”和“Operation(运维)”二者合体,不少企业在实际操作中只片面看到了Dev所提倡的自动化,却忽略了Ops这个名词背后的“流程”和“可靠”原则。在微盟事件中,运维人员通过VPN账户进入其内部网络,短短几分钟内的操作就影响了大批业务系统,这就是没有管理体系约束所带来的问题:一个运维人员可以执行同时影响数千台,甚至上万台服务器的操作,这种流程的设计本身就是致命的隐患。

从之前分享的微盟运维架构来看,基本的运维工具都具备了,包括监控、CI/CD、CMDB、权限管理等,但是仔细观察后会发现工具间彼此的管理范围都有局限性且各自分散,我们认为有效可行的方式是通过统一的流程管控起来。

在ITOM领域里,用来处理设计和管理运维流程的工具叫做ITSM (IT Service Management)。ITSM可以规避由运维人员直接操作服务器的设备带来的隐患,而把操作抽象成代码,通过关键节点人为审批后,由系统去执行剩下的操作,这样不仅保障了必要的审批合规性,也规避了人为蓄意或失误的风险。2015年的携程事件也是因为误操作导致的业务宕机,事件之后携程开始大量投入流程工具的研发。

下面我们来看看自动化和流程是怎么结合的,第一层是ITSM工作流引擎、自动化作业平台、以及监控系统,现在我们需要把运维软件以工作流的方式串联起来,用流程、审计、自愈等方式从前、中、后三个阶段防御微盟可能产生的问题。

在事前阶段,用流程实现分而治之。操作人员在ITSM申请数据库变更的流程,这时会经由对应审核人员批准,审核通过之后再由自动化平台做执行,二次审核可以保证执行动作的合规性,避免操作人员直接登录平台对数据库的操作。

在事中阶段,执行审计和阻断,当操作人执行高危命令,即触发ITSM阻断流程。比如有运维权限的人员通过VPN帐号登录自动化作业平台后,一旦执行符合高危操作定义的操作,就会触发ITSM的阻断流程,命令被拦截,并通知相应的管理员。

在事后阶段,自愈流程会对故障状况进行恢复。如果监控到数据库存在异常,ITSM会收到告警并触发恢复流程,由被关联的第三方工具对数据库进行恢复。所以我们在这里讲的并不是单个工具的作用,而是将各个运维工具打通之后,更加全面地帮客户解决管理流程和体系的问题。

在进入21世纪的第2个10年,运维领域里的两大主流理念ITIL和DevOps正在积极融合,比如新发布的ITIL 4已经融入了DevOps的敏捷和精益特性,DevOps也开始强调安全与合规。精鲲的产品一直在致力于ITIL与DevOps的落地,我们也相信两种框架融合的运维理念将是未来的一个趋势。

从微盟删库事件,看安全的本质和IT转型方向

7、凯馨科技创始人孙诚:数据防护体系建设关乎企业生死存亡

数据本身的使用安全,目的是如何更好、更安全的使用数据。

把客户生产系统看作一个核心,围绕核心的外部访问对象大体上可以分为三类:应用用户、运维用户和离线用户。

外部应用,如业务网站以及OA系统等。其特点是在网络中有大量的网络安全设备,比如防火墙、审计和防高级App攻击等等,这些安全设备能够起到对于应用本身漏洞或者不太正规的访问行为进行安全防控。

外部应用访问者绝大多数直接通过应用、网站、商城之类的接口通过固定模式访问应用服务器。这类访问的操作行为比较统一,遵循着程序设定的模式操作,但是也存在着非正规的访问行为,通过利用应用的某些“缺陷”进行破坏行为。

第二部分是来自于内部,这次微盟事件是典型的获得合规授权的人做了不合规的事,属于逻辑错误。逻辑错误大体上可以分为两类,一类是合法授权的人干了非法的事,另外一类是连授权都没有的人对生产系统的破坏。国家这两年对于数据使用的安全要求非常高,自从美国的塞班斯法案和欧盟的GDPR法案落地之后,我们国家也加强了对这方面的重视。2019年中国三大标准化委员会,还有国家各个部委,以及行业性监管机构,累计出台了30+项法规或者行业规范指导意见,约束各个厂商安全使用数据。所有企业都有一个共识,数据的价值已经上升到非常高的高度了,如何安全的使用数据,这已经不仅仅是合规性的要求,而是关系到企业生命的关键点。

从微盟删库事件,看安全的本质和IT转型方向

如何防范这种对企业产生伤害的事情发生?这就是数据对内防护体系要做的事,以数据使用为中心,为客户构建一整套安全体系,在这个安全体系里面,对于外部用户、运维用户和开发测试人员的使用数据流程和方法进行监控和防护,在这中间会有动态的脱敏审计服务器,一旦发生了不合规的行为或这个行为很少发生甚至从未发生过,接下来标记发送这种行为的IP地址,立刻向管理员报警,管理员就可以快速界定该行为是否有风险,这是对外部的。

而对运维人员却很难防,因为运维人员对整个系统非常了解,可以走任何一条路都能到达目标端。在这种情况下,就需要采用第二种模式——串联的代理,不管跳几重模式,在最终的目标端前会有权限限制,一旦发现有异常操作就会立刻阻止该操作,这就是通过代理的模式从中间进行动态管控。

第三部分,将数据给离线开发测试人员的时候,自动根据需求去抽取数据,但是这个数据是已经过滤了敏感隐私的部分,通过脱敏或者同态加密的方法将数据变换,成为一个完整的防护体系,这样可以使内部的生产循环得到一定的保障。

从微盟删库事件,看安全的本质和IT转型方向

最后需要给客户提供一个可视化的平台,即所谓的资产梳理。在建设IT防护系统的时候,很多人更加关注如何保护系统安全,但是由于客户数据量越来越大,业务系统越来越多,甚至达到了没有一个运维人员可以100%了解所有业务系统,在这个时候一套好的数据可视化平台是可以给客户带来更高的数据资产全景享受。

从微盟删库事件,看安全的本质和IT转型方向

在未来,数据本身存在于单个点的价值是已经越来越小了,只有让数据可以流动,更安全的进行交换、分享,才可以实现数据价值最大化。随着数据价值产生,数据可能也会成为一个货币,未来在交换的过程中,会让企业价值提升,也会让数据使用的生命周期延得更长。在这个过程中,如何保证数据在使用过程中的价值不会影响,同时又能保障数据在使用过程中的安全性,这是这个行业需要解决的事情。

8、钛资本研究院观察

通过此次事件,我们更清晰的看到了不同时代下企业服务的“变与不变”。随着云计算技术引入企业服务领域,技术架构、实现方式得到了快速的创新和升级,这是“变”;同时,企业级服务的基础理念和要求保持“不变”。

此次微盟删库事件,对于以云计算为代表的互联网技术架构企业服务行业整体都是一次警醒,随着产业互联网的深化,需要进一步融合对企业级服务的认知和理解。

同时我们从商业和发展的视角也看到,一系列安全事件的发生,也有其必然性。这折射出,国内云计算领域已经从基础能力建设阶段,发展到建设和治理并重阶段,IT治理相关细分领域将迎来更多发展机会。