微服务本身并没有一个严格的定义,不过从很多人的反馈来看,大家都达成了这样一个共识:微服务是一种简单的应用,大概有10到100行代码。我知道使用代码行数来比较实现其实很不靠谱,因此你能理解这个意思就行,不必过分拘泥于细节。不过有一点需要注意,那就是微服务通常都是很小的,甚至是微型的。这意味着你不会在大型框架上看到很多小服务,这是不切实际的。简单与轻量级是当今的主流。诸如Sinatra、Webbit、Finagle与Connect等小型框架在将你的代码包装到一个薄薄的通信层这方面做得刚刚好。
微服务架构带来的变化
微服务架构给IT系统和团队带来了以下显著的变化:
微服务架构下用户面临的监控问题
在转型到微服务架构以后,用户在监控方面主要会面临以下问题。
首先,监控配置的维护成本增加。某个在线系统大概有106个模块,每个模块都需要添加端口监控,进程监控,日志监控和自定义监控;不同服务的监控指标,聚合指标,报警阈值,报警依赖,报警接收人,策略级别,处理预案和备注说明也不完全相同;如此多的内容,如何确保是否有效,是否生效,是否完整无遗漏。
当前针对维护成本,业界常用的几种方法有:
其次,第三方依赖越来越多。例如Docker的可靠性很大程度上取决于宿主机,如果所在的宿主机发生资源争用,网络异常,硬件故障,修改内核参数,操作系统补丁升级等,都可能会让Docker莫名其妙地中招。
第三,服务故障的定位成本增加。假设故障是因为特定服务处理耗时增大导致的,那么如何快速从106个服务以及众多的第三方依赖中把它找出来,进一步,又如何确认是这个服务的单个实例还是部分实例的异常,这些都让故障定位变得更复杂。
在微服务架构下,提高故障定位效率的常用方法有:基于各类日志分析,通过仪表盘展示核心指标:数据流,异常的监控策略,变更内容,线上登录和操作记录,文件修改等内容。
微服务监控的难点及解决思路
在微服务架构下,监控系统在报警时效性不可改变的前提下,采集的指标数量是传统监控的三倍以上,如果是万台以上的规模,监控系统整体都面临非常大的压力,在监控方面的挑战主要来源于:
首先,存储功能的写入压力和可用性都面临巨大挑战。每秒写入几十万采集项并且需要保证99.99%的可用性,对于任何存储软件来讲,都不是一件轻松的事情。
对于写入和可用性的压力,业界常见的解决思路主要是基于如下方式的组合:
其次,监控的生效速度也面临巨大挑战。微服务架构下,基于弹性伸缩的加持,从服务扩容或者迁移完毕到接入流量的耗时降低到1Min左右,且每时每刻都在不断发生着。对于复杂监控系统来讲,支持这样的变更频率绝非易事,而且实例变更如此频繁,对监控系统自身来讲,也会面临可用性的风险。
常见的提高监控生效速度的思路主要有如下的几种方式:
第三,基础设施的故障可能导致报警风暴的发生。基础设施如IDC故障,可能会在瞬时产生海量报警,进而导致短信网关拥塞较长时间。
解决这类问题的思路主要是如下方式:
微服务监控原则
对于采用微服务的团队,建议在做监控时可以参考Google SRE的理论,结合长期的运维实践经验,我们总结了几点可以参考的原则:
另外,我们也给大家提供了一些黑盒监控的实施经验:
首先,应该监控哪些功能?建议将系统接入层的访问日志,TOP-10的URL添加黑盒监控。那TOP-9的URL是否一定需要监控?TOP-11的URL是否一定不需要监控?这取决于其访问量是否和前面的URL在一个数量级以及人工评估其接口的重要性程度,这里提供的更多是一个思路,而非可量化的方法。
第二,应该使用多少个样本/节点对一个功能进行黑盒监控?建议样本应该覆盖到对应模块的所有实例,这样也能发现由少数实例导致的小规模故障。
微服务架构下的理想监控系统
从用户的角度看,Prometheus的整体架构设计参考了Google BorgMon,系统具有高度的灵活性,围绕其开放性现在也慢慢形成了一个生态系统。具体来说,Prometheus 使用的是 Pull 模型,Prometheus Server 通过 HTTP 的 Pull 方式到各个目标拉取监控数据。HTTP协议的支持能够更加方便的进行定制化开发,服务注册、信息采集和数据展示均支持多种形式/开源软件。
结合目前国内正在兴起的智能运维,也许不久的将来,上面提到的监控的各种问题也就迎刃而解了。监控策略不在需要人工定义,转由机器学习负责,诸如策略添加,阈值设定,异常检测,故障定位,自动止损等逐步由系统负责,运维人员不再是“救火队长”。
京东云监控响应实践
京东云运维平台为数万台机器提供监控,部署,机器管理,权限管理,安全管理,审计和运营分析等功能,为京东云所有的业务在各类异构网络环境下提供标准和统一的运维支撑能力。
基于产品所处的发展阶段,用户规模的不同,报警频率也不尽相同。理想情况下,报警频率应该等同于故障频率,这里面体现了报警的准确度和召回率两个指标,如果每个报警都对应一个服务故障,则准确度为100%,同理,如果每次服务故障均有报警产生,则召回率为100%。大家可以基于上述两个指标,来衡量自己团队的现状,并针对性的制定提升计划即可。
对于响应流程,京东云有几个做的好的地方可以给大家参考:
首先,所有核心报警均有可靠的应对预案和处理机制,并通过定期的破坏演练持续进行完善。
其次,公司的监控中心会7x24值守,他们也会和业务线运维同学一样,接收所有影响核心系统稳定性的报警,收到报警后会进行通报,确保核心报警在发生后第一时间内有人处理并在规定的时间内处理完毕。如果未在规定的时间内处理完毕,监控中心会进行报警升级,通报该系统的管理人员,从而确保该报警可以得到更高的重视度和支持力度。
总结
对于监控系统的未来发展,长期来看,依托于Kubernetes的发展,在基础设施的各个领域,都会从百花齐放到几家独大,从而将标准化落地到基础设施的各个领域,进而促进整个生态的繁荣。
作为容器集群管理技术竞争的大赢家,Kubernetes已经和微服务紧密联系,采用Kubernetes的企业往往都开始了微服务架构的探索。然而不同企业不同阶段的微服务实践面临的问题千差万别,注定要在技术路线上产生分叉
「 调用链监控 」是在微服务兴起后才有的一种新流行的监控模式。因为在我们传统单体应用的项目中,不存在服务链/调用链的概念,所以也就根本没有调用链监控的需求了
在Medium,我们的技术堆栈始于2012年的单体Node.js应用程序。我们已经构建了几个卫星服务,但我们还没有制定一个系统地采用微服务架构的策略。 随着系统变得越来越复杂并且团队不断发展
新兴技术的下一波浪潮正向我们涌来,人工智能、可穿戴设备、物联网及更多技术变得普及开来。许多组织现面临着管理这些整体式应用程序这个难题。当下,速度和灵活性必不可少
微服务被认为是一种理想的架构模式,因此,Steven Lemon 所在公司的领导层决定从单体架构向微服务架构迁移,这让整个开发团队在随后的的日子里苦不堪言,七大现实问题摆在面前无法解决,微服务架构的好处也没有享受到
微服务,并不仅仅是一种代码构造方式。微服务概念一出现就引发了热烈讨论,很多文章都喜欢将其与整体式架构比较,乃至来自大型企业的用例等。然而,在说起微服务时,开发人员关注的往往是这场革命的技术意义
Web应用架构受系统用户量、开发人员组织方式影响严重。过去二十年互联网迅速发展,Web架构也从单体式演进出微服务,背后还有比如 Martin Fowler 提出的理论支撑。虽然每个人都听说过微服务,但是很多人并不太清楚为什么要这么做
近些年微服务架构大行其道,趁着最近有时间,来捣鼓捣鼓微服务是怎么一回事。微服务的概念由 Martin Fowler 于2014年3月提出:微服务架构是一种架构模式,它提倡将单一应用程序划分成一组小的服务,服务之间相互协调
NGINX从一开始就参与了微服务运动。 NGINX的轻巧,高性能和灵活性非常适合微服务。NGINX Docker映像是Docker Hub上排名第一的应用程序映像,您今天在Web上找到的大多数微服务平台都包含一个演示
微服务架构是将软件系统分解成可独立部署的自治模块,这些模块通过轻量级的、语言无关的方式进行通信,共同实现业务目标。软件系统是复杂的。由于人脑只能处理一定程度内的复杂性
内容以共享、参考、研究为目的,不存在任何商业目的。其版权属原作者所有,如有侵权或违规,请与小编联系!情况属实本人将予以删除!