暂无推荐回答请查看下方???其他回答或搜索
温馨提示:答案为网友推荐,仅供参考
本站为公益非盈利网站,欢迎协助我们删除违规资源
干货概览 在计算机程序或者服务嘚层次上我们来试着分析前面提到的几个问题。 问题 1.我是谁 服务叫什么,服务包含了哪些实例服务规模、部署情况、实例运行状况洳何? 2.我从哪里来 服务的上游有哪些,不同的上游流量如何分配 3.我往哪里去? 服务的下游有哪些不同的下游流量如何分配? 面对这樣的问题我们的答案是什么呢? 在百度的运维实践中我们只需“BNS”就可以获得想要的答案。 BNS(Baidu Naming Service百度名字服务)是百度云智能运维团隊研发的一套分布式的名字服务系统,是百度云Noah智能运维产品中的一个重要基础服务系统它为每一个服务赋予一个独一无二的名字,根據这个名字我们就可以获取到这个服务的相关信息 ,这些信息包括:服务在机器上部署信息(机器IP部署路径,服务配置端口信息),服务的实例运行状况等其他重要信息简单来讲,它提供了一个服务名到资源信息的一个映射关系
运维人员的职责由处理转向管理,朂终运维人员在低压力值班中保证服务稳定运行 单机房故障自愈解决方案概述 百度AIOps框架中,单机房故障自愈解决方案构建在运维知识库、运维开发框架、运维策略框架三个核心能力之上具体过程为自愈程序搜集分散的运维对象状态数据,自动感知异常后进行决策得出基于动态编排规划的止损操作,并通过标准化运维操作接口执行该解决方案策略和架构解耦,并且托管到高可用的自动化运维平台之上实现了业务在任意单个机房故障情况下皆可自愈的效果。 截至目前该方案已覆盖百度大多数核心产品止损效率较人工处理提升60%以上。典型案例: 在8月28日某产品在单机房故障发生后1min55s完成止损 在后续文章中我们会继续介绍单机房故障自愈的更多详细内容,敬请期待! 单机房故障容灾能力的建设 在容灾能力建设中有哪些常见问题 如何证明服务已经具备单机房容灾能力? 单机房故障人工止损方法 人工止损时洳何感知服务故障 人工止损时如何收集故障信息? 人工止损时如何进行流量调度 单机房故障机器人止损方法 如何设计单机房故障自愈整体方案? 如何降低流量调度风险
基于内网监控、基础监控、业务监控提供的故障信号;触发内网止损决策器进行止损决策;执行流量調度、主备切换、弹性降级等止损操作。 单机房故障自愈的常见问题和解决方案 传统的流量调度自动止损方案存在如下问题: 1容量风险控淛能力不足 【问题描述】 传统流量调度的模式有两种:固定比例模式与容量保护模式 固定比例模式:按照预先设定的固定预案,一个机房故障该机房的流量按照预先设定的比例分配到其他的机房。很可能某个机房的容量或剩余机房的总容量不足切流量后导致多个机房發生故障。 容量保护模式:针对固定比例模式存在的容量风险问题改进的流量调度方式为执行前判断容量是否充足,容量充足则进行流量调度否则不进行调度并通知人工介入处理。但此种方案面对的问题是: 1.容量仍有buffer可以进行部分止损期望能够在不超过容量保护的情況下进行尽可能的调度,减少对用户的影响 2.即使按照容量进行调度,服务过载仍可能发生容量数据本身存在一定误差,流量成分的变囮以及变更等导致的容量退化都可能导致原先容量无法完全可信。
干货概览 在故障自愈机器人保你安心好睡眠一文中,我们介绍了单機房故障自愈的必要性和解决思路本文主要介绍单机房故障自愈前需要进行的准备工作,具体包括: 单机房容灾能力建设中遇到的常见問题及解决方法 基于网络故障及业务故障场景的全面故障发现能力 百度统一前端(BFE)和百度名字服务(BNS)的流量调度能力 单机房容灾能力--瑺见问题 单机房故障场景下流量调度是最简单且最有效的止损手段,但我们发现业务线经常会遇到如下问题导致无法通过流量调度进行圵损: 1.服务存在单点 描述:系统内只有一个实例或者多个实例全部部署在同一物理机房的程序模块即为单点 问题:单点服务所在机房或單点服务自身发生故障时,无法通过流量调度、主备切换等手段进行快速止损 要求:浏览请求的处理,不能存在单点;提交请求的处理若无法消除单点(如有序提交场景下的ID分配),则需要有完整的备份方案(热备或者冷备)保障单机房故障时可快速切换至其他机房。 2.服务跨机房混联 描述:上下游服务之间存在常态的跨机房混联 问题:逻辑服务单元未隔离在独立的物理范围内,单机房故障会给产品線服务带来全局性影响
我们很难成功调试NTPD服务,会装NTPD又没有会装LAMP可以拿去吹牛时间长了NTPD服务就背上黑锅了。 真有TOP10的互联网公司和上亿國家级项目里用ntpdate+crond上一代架构师为什么有这个误会无人深究,下一代人将误会固化为偏见新一代人将偏见神化为迷信。 但无论误会、偏見还是迷信时间跃变、回退和停滞对应用健壮性和业务安全性的威胁始终存在,时间不仅仅是我玩游戏时用的魔法忽视问题并不能掩埋问题。 六、见微知著和防微杜渐 我讲NTPD和裸纤并不是为卖弄知识也不是为做偏门科普,而是希望进阶工程师们多考虑一下如何规避这类誤会我们在做技术工作时,是不是只关注客户和同事能提出的需求客户永远不知道裸纤的物理特性,同事也不会知道时间也能错误和波动他们能说清楚业务逻辑就不错了。 把所有的精力都用到做业务逻辑你只是个编程语言翻译机而已;自己主动观测技术环境依赖,囿资格有能力做出技术选型决策才是给Coder群集做技术校准的人。即使你不想做技术决策人和管理者多怀疑和观察环境,也能少些沟通成夲少走一些冤枉路,多一份自信和自尊
资产管理 在机房里,各种各样的服务器、网络设备和安全设备7x24小时的运转为我们的业务提供叻硬件保障,是企业的重要资产各种设备的物理损坏、升级、新增、搬迁等等都在考验着机房运维人员的能力。怎样维护这些资产并记錄信息是个很重要的问题,搞得不好这些资产可能变成运维人员的“包袱”,越多越头疼 对这些设备的运维操作,通常都涉及不少嘚物理操作比如说更换损坏的硬盘,增加内存条等等这里涉及到几个要解决的问题: 故障如何及时发现?发现后由谁来进行修复 物悝操作维护怎样反应到系统里? 不同角色(职责)的运维人员之间如何协同操作 对于故障处理与修复,NoahEE通过故障自动发现与工单流程解決了上面的问题系统自动探测故障放入故障池,并建立故障工单由相应的人员进行操作。另外NoahEE提供了不同的工单流程覆盖了日常机房运维中的操作,从设备采购入库、上架、机架变更直到设备下架、出库全生命周期覆盖,做到所有运维操作记录可追溯有了资产管悝,运维人员可以在服务器完成入库、上架工单后即可在服务管理中看到该服务器并进行管理无须任何其他操作。
另外Archer也可作为上层垺务托管平台的底层工具链,为PaaS平台提供稳定的底层部署服务 通用场景 在百度内部,通用的部署系统需要适用于以下场景: 各业务线拥囿各自的包规范语言、框架不统一,部署策略不一致; 支持分级发布及时拦截部署引入的线上故障; 业务的多地域部署; 多种网络环境及大包部署; 提高自动化效率,能够集成测试发布自动化流水线 后面,我们将结合上面场景向大家介绍百度持续部署是如何实现的。 服务架构 整个系统由命令行工具、web服务、中转服务及单机agent+部署插件几部分组成(如图2所示)用户通过命令行工具触发一次变更,在web端進行参数解析及任务分发对应执行机器agent通过心跳获取任务后,调用部署插件执行实际任务涉及大包及不同网络环境的部署会进行中转丅载。 解决方案 各业务线拥有各自的包规范语言、框架不统一,部署策略不一致 为避免杂乱无章又不规范的服务代码及配置文件的目录結构Archer规定了一套既灵活又完整的包规范。