数据中心是重要的信息基础设施,也是企业应用的关键支撑。然而,目前业界数据中心的资源利用率普遍较低,导致部分资源闲置,带来了额外的运维成本,制约各大企业的计算效能提升。混部(colocation),即通过将不同业务类型的应用混合部署到同一资源池,利用不同业务之间在资源使用类型、周期等方面的互补性,实现对服务器资源利用率的有效提升,作为提升物理资源利用率、降低运营成本的有效方案,是当今学术界和产业界的研究热点。
基于对业界混部技术方案的充分调研以及各大云厂商混部技术实践的参考,结合金融业应用的实际情况,本报告提出了一套基于高低优先级的应用混部技术方案,主要包含混部调度和资源隔离两大核心能力。其中,混部调度通过资源超分的思想和混部调度系统,实现节点空闲资源的充分利用,当节点上的资源产生干扰时,通过驱逐低优先级应用来保障高优先级应用资源使用;资源隔离提供增强型资源隔离特性,基于优先级的资源动态分配方法,在资源不足时保证高优先级应用使用资源,实现毫秒级的资源隔离。
关键词:混部、资源利用率、调度、隔离、云计算一、研究背景及目标
(一)研究背景
大规模数据中心是当今企业级互联网应用和云计算系统的关键支撑。为保障日益增长的互联网应用和云计算系统的计算需求,数据中心需要不断横向扩容,其规模和服务器总量呈现快速增长趋势。然而,伴随着数据中心的急速扩容,其资源利用率却始终处于较低状态。统计数据表明,目前全球数据中心资源利用率仅为10%—20%,如此低的资源利用率意味着大量的资源浪费。因此,如何把这些浪费的资源合理利用起来成为一个亟需解决的关键性技术问题。
想要解决这个问题首先要研究其产生的根本原因。通常而言,数据中心承载着各种类型的业务,包括交易、办公类等在线服务、大数据、实时计算等,从业务对资源质量要求来看,可对不同类型的应用按优先级分级,业界比较典型的划分场景为在线和离线。在线作业通常是处理用户请求的服务,典型的有网页搜索、即时通信、语音识别、流式计算、电子商务等,通常可为企业带来直接的经济利益,具有如下特点:一是运行时间长。在线作业通常以服务的形态持续运行,以请求为单位触发计算任务,因此也被称为长服务。二是资源使用呈现动态变化。在线作业的资源使用量与用户并发请求量呈正相关,会伴随用户并发请求量发生动态变化。三是对性能变化敏感。在线作业的性能通常决定了对外服务质量,而服务质量则直接影响企业的经济利益和用户体验。因此,在线作业又被称为延时敏感型作业。
为保证应用运行的稳定可靠,往往会为在线应用分配大量的服务器资源。后果就是,虽然能够很好保障其运行质量,但也造成了在大部分时间服务器处于空闲的状态,导致数据中心整体资源利用率很低。
解决这个问题的最佳方案是“混部”,顾名思义,就是把不同优先级的应用进行混合部署,比如在线应用和离线应用混部,高优先级和低优先级在线应用混部。当在线应用的资源使用量处于低谷时,将离线应用或者低优先级的在线作业部署到空闲的节点上,大幅提高整个集群的资源利用率。
(二)研究目标
通过对业界混部技术的主流方案和技术原理进行研究,结合金融行业应用的实际情况,基于K8S技术基础,研究适合金融行业的容器混部方案,实现资源利用率的明显提升,在保证应用服务质量的同时,实现混部节点50%以上部署密度的提升,资源利用率提升至30%以上。对于高优先级应用,相较于混部前,干扰控制在5%的范围之内。
本文来自知之小站
PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)