导读 | 采用云计算自动化用例表明,组织可以采用一些工具更好地管理云平台并解决云计算的连接故障。由于云计算基础设施由云计算提供商拥有和运营,因此组织对云计算环境进行管理和故障排除可能具有挑战性。以下了解一些使云计算管理变得更容易的方法。 |
首先,考虑采用云计算自动化用例。尽管所提供的特定功能将取决于云计算提供商,但它们可以简化对云计算实施的监督。有些供应商隐藏了云计算API之间的差异,如果用户考虑采用多云或混合云,那么这将成为一个好处。市场上有一些多云编排工具,对于那些希望自己开发工具的组织来说,也可以使用Ansible和Python等开源软件包进行开发。
无论采用哪种方法,都会充分掩盖云计算提供商之间的差异。组织只需确保其选择的工具不会隐藏太多细节,以免掩盖排除故障所需的可见性。
自动化常见的工作流程是可以使用的最有价值的机制。资源调配、取消配置、审核以及故障排除等任务非常重要。已经采用敏捷软件开发的组织将使用支持持续集成和持续交付的工作流程。组织部署的自动化程度越高,管理云计算资源所需的工作量就越少。
云计算管理应集中在以下五个方面:
使用云计算提供商提供的云计算服务的优势之一是,可以消除或减少拥有和运营数据中心基础设施相关的成本,但是这种好处只有在正确管理流程的情况下才能获得回报。为此,必须将IT系统和流程设计为根据需要自动配置或取消配置资源,从而将人工交互降至最低。
人们对云计算的一个普遍误解是,它在某种程度上比企业托管更安全。实际上,它们面临了一些新的挑战。为了确保组织的数据受到保护,需要与安全服务提供商签订合同,这些组织可以提供经过验证的技术或服务来保护正在传输的数据和存储的数据。在所有的云计算自动化用例中,创建和维护良好的云安全是最典型的用例。
如果没有正确设计和实施云计算环境,则应用程序性能可能会受到影响。应用程序的关键部分应由云计算提供商提供服务,以最大程度地减少通信延迟。可以利用多个云计算实例的应用程序可以优化客户端到云平台的位置选择。
监视云计算性能的一种方法是采用OpenTelemetry云计算可观察性框架。它是一个开源的、供应商中立的系统,用于从云计算系统收集数据。收集度量和日志的软件代理加载到计算系统上。收集到的数据被转发到各种分析系统,在那里可以监视系统性能。组织需要与其云计算提供商联系以查看是否支持它。
出色的云计算设计将融合基础设施,这要求在多个可用性区域或由多个云计算提供商运行应用程序。但是需要小心谨慎,因为很容易出错,并且应用程序通常依赖于被忽略的非冗余内部组件。验证弹性的最佳方法是主动测试。或通过外部组织进行验证测试。而用户经常看到测试快捷方式使弹性测试无效的情况。
对组织无法拥有或控制的基础设施进行故障排除是一项挑战。用于解决组织网络故障的数据是不可用的。与其相反,组织必须依赖数字体验(DX)监控,它是综合事务处理和实时流量监控的结合。
详细的诊断信息由软件代理捕获并进行关联,从而生成了客户端到服务器应用程序性能的全面视图。组织使用数字体验(DX)工具来诊断各种问题,这些问题包括ISP路由协议问题和客户端Wi-Fi信号强度,而所有这些都无法访问所涉及的网络和网络设备。
另一个步骤涉及使用ChatOps自动化工作流来简化故障排除过程并减少解决时间。当检测到问题时,机器人会运行预定的工作流程来收集诊断信息。这种机器人将诊断信息发布到Slack或Teams聊天空间中,例如,IT团队成员可以在其中排除故障。可以根据需要创建更多的机器人工作流,从而使IT团队不必人工调查或收集性能数据。
总而言之,从内部部署计算向云计算的转变带来了挑战和机遇。组织可以将其业务和工作流程迁移到云平台中,为此需要仔细评估云计算自动化用例,以确定哪些工具将使其能够按需扩展资源,同时避免人工流程中固有的错误。
原文来自:
本文地址://q13zd.cn/cloud-computing-troubleshooting.html编辑:KSJXAXOAS,审核员:清蒸github
Linux大全:
Linux系统大全: