登录站点

用户名

密码




自由圈 - 中国系统集成网

  • 分享

    双机热备软件信息高可用性概述

    3570359642 2012-04-26 10:19
    监控安装 弱电工程
                         信息高可用性概述 一、高可用性需求

    随着信息化建设的不断推进,企业的信息化已经非常普遍,各个企事业单位的活动越来越多的依赖于其关键的业务信息系统。而对于日益承担企事业单位核心业务来说,数据的高可用性和系统的连续运转能力极其重要,服务器是企事业单位存放数据的重要设备,如果一旦因为服务器的故障而无法正常运转,就会造成业务停顿,导致不可挽回的损失。

    服务器的故障可能由各种原因引起,如设备故障、操作系统故障、软件系统故障等等。一般地讲,在技术人员在现场的情况下,恢复服务器正常可能需要10分钟、几小时甚至几天。从实际经验上看,除非是简单地重启服务器(可能隐患仍然存在),否则往往需要几个小时以上。而如果技术人员不在现场,则恢复服务的时间就更长了。 而对于一些重要系统而言,用户是很难忍受这样长时间的服务中断的。

     随着企事业不断完善和投入运营,如何管好用企事业,充分发挥其现代化基础设施的作用,成为最迫切的问题。数据畅通,访问及时是各企事业运营管理的重要任务之一,工作正常运行直接影响到管理运作质量和管理的经济效益。可见,对那些需要保障信息安全和提供不间断的信息服务的企业而言,业务系统的容错性和不间断性显得尤为重要。如何保障各种关键应用持续运营,达到永续经营的良性循环,已成为当今企事业单位和IT领域急需解决的关键问题。

    二、服务宕机的必然性

    通常企业构造服务的硬件环境为单一服务器配置模式,一旦因为计划中宕机和计划外宕机,便会引起服务终止。

    计划中的宕机通常指完成系统升级、应用迁移、部件更换等操作引起的宕机,这些计划中的宕机是企业维护服务正常工作不可避免的工作项目,虽然可以人为地采取一些措施减少损失,但依然会造成服务的终止。

    计划外宕机通常是由于系统出错造成的。错误包括硬件、软件、系统和网络,或是系统运行外部环境原因等,这些情况包含了:硬件故障、操作系统崩溃死机、硬盘满、电压不稳、跳电、电源损坏、网络故障、软件漏洞(Bug)、应用出错。同样人为失误造成的故障也称为出错。当然,并非所有的出错会造成宕机,也不是所有的意外宕机都是由于部件出错造成的,灾难或其他意外情况同样会造成服务终止。计划外宕机通常会导致非常严重的后果,比如酒店的入店和结帐系统故障,所有的客户将无法check-incheck-out;医院的电脑系统出错,将导致患者无法结账、医生无法得到患者信息,甚至无法进行手术;银行的记帐系统因电脑出错,客户将无法提现和存款。总之,计划外宕机所造成的损害将非常大。有些环境下,系统停止服务将导致事务处理无法进行,必将导致客户对企业信任度降低,甚至会给客户带来不可挽回的损失。

    三、高可用性解决方案

    通常,对于服务因错误造成的不可避免终止,企业都会安排相关的管理人员进行定时的监控,一旦发现服务不可用,便会立即进行处理排错。这是非常原始的高可用解决方案,存在诸多问题,譬如及时性问题,一旦错误在深夜发生,而人工不可能24小时监控;再譬如处理时间长短不可控,一旦错误造成的原因非常复杂,排错非常困难,需要非常长的时间,那么服务的终止将非常长。在排错过程中,人为操作失误将可能导致系统的永久瘫痪。另一方面,为了维持系统的高可用性而配备操作人员,劳务费用也非常昂贵。

    目前,市场上提供多种高可用性解决的软件解决方案。按照服务器分:主要分为双机和多机的解决方案。其主要原理是在提供硬件冗余的系统基础之上,运行高可靠性软件而构成。高可用性软件自动检测服务的运行状态,一旦服务在主机上出现故障,高可用性软件将自动地把服务转到另一台服务器上,从而让服务持续可用。对系统应用状态的监控和服务故障的恢复,由高可用软件自动完成,减少了人员的负担。按照共享磁盘分类:主要为镜像群集和共享磁盘群集。其主要原理是数据只存一份在磁盘整列中,而磁盘整列为群集内的服务其共享,如果不是,那么数据在群集中服务间进行镜像,并且保证服务器间的数据完全一致性,为热备方案提供数据可靠性。
你还不是该圈子正式成员,不能参与讨论。 现在就加入