登录站点

用户名

密码




双机热备软件信息高可用性概述

6已有 1134 次阅读  2012-04-26 09:57
监控安装 弱电工程
          信息高可用性概述 一、高可用性需求

随着信息化建设的不断推进,企业的信息化已经非常普遍,各个企事业单位的活动越来越多的依赖于其关键的业务信息系统。而对于日益承担企事业单位核心业务来说,数据的高可用性和系统的连续运转能力极其重要,服务器是企事业单位存放数据的重要设备,如果一旦因为服务器的故障而无法正常运转,就会造成业务停顿,导致不可挽回的损失。

服务器的故障可能由各种原因引起,如设备故障、操作系统故障、软件系统故障等等。一般地讲,在技术人员在现场的情况下,恢复服务器正常可能需要10分钟、几小时甚至几天。从实际经验上看,除非是简单地重启服务器(可能隐患仍然存在),否则往往需要几个小时以上。而如果技术人员不在现场,则恢复服务的时间就更长了。 而对于一些重要系统而言,用户是很难忍受这样长时间的服务中断的。

 随着企事业不断完善和投入运营,如何管好用企事业,充分发挥其现代化基础设施的作用,成为最迫切的问题。数据畅通,访问及时是各企事业运营管理的重要任务之一,工作正常运行直接影响到管理运作质量和管理的经济效益。可见,对那些需要保障信息安全和提供不间断的信息服务的企业而言,业务系统的容错性和不间断性显得尤为重要。如何保障各种关键应用持续运营,达到永续经营的良性循环,已成为当今企事业单位和IT领域急需解决的关键问题。

二、服务宕机的必然性

通常企业构造服务的硬件环境为单一服务器配置模式,一旦因为计划中宕机和计划外宕机,便会引起服务终止。

计划中的宕机通常指完成系统升级、应用迁移、部件更换等操作引起的宕机,这些计划中的宕机是企业维护服务正常工作不可避免的工作项目,虽然可以人为地采取一些措施减少损失,但依然会造成服务的终止。

计划外宕机通常是由于系统出错造成的。错误包括硬件、软件、系统和网络,或是系统运行外部环境原因等,这些情况包含了:硬件故障、操作系统崩溃死机、硬盘满、电压不稳、跳电、电源损坏、网络故障、软件漏洞(Bug)、应用出错。同样人为失误造成的故障也称为出错。当然,并非所有的出错会造成宕机,也不是所有的意外宕机都是由于部件出错造成的,灾难或其他意外情况同样会造成服务终止。计划外宕机通常会导致非常严重的后果,比如酒店的入店和结帐系统故障,所有的客户将无法check-incheck-out;医院的电脑系统出错,将导致患者无法结账、医生无法得到患者信息,甚至无法进行手术;银行的记帐系统因电脑出错,客户将无法提现和存款。总之,计划外宕机所造成的损害将非常大。有些环境下,系统停止服务将导致事务处理无法进行,必将导致客户对企业信任度降低,甚至会给客户带来不可挽回的损失。

三、高可用性解决方案

通常,对于服务因错误造成的不可避免终止,企业都会安排相关的管理人员进行定时的监控,一旦发现服务不可用,便会立即进行处理排错。这是非常原始的高可用解决方案,存在诸多问题,譬如及时性问题,一旦错误在深夜发生,而人工不可能24小时监控;再譬如处理时间长短不可控,一旦错误造成的原因非常复杂,排错非常困难,需要非常长的时间,那么服务的终止将非常长。在排错过程中,人为操作失误将可能导致系统的永久瘫痪。另一方面,为了维持系统的高可用性而配备操作人员,劳务费用也非常昂贵。

目前,市场上提供多种高可用性解决的软件解决方案。按照服务器分:主要分为双机和多机的解决方案。其主要原理是在提供硬件冗余的系统基础之上,运行高可靠性软件而构成。高可用性软件自动检测服务的运行状态,一旦服务在主机上出现故障,高可用性软件将自动地把服务转到另一台服务器上,从而让服务持续可用。对系统应用状态的监控和服务故障的恢复,由高可用软件自动完成,减少了人员的负担。按照共享磁盘分类:主要为镜像群集和共享磁盘群集。其主要原理是数据只存一份在磁盘整列中,而磁盘整列为群集内的服务其共享,如果不是,那么数据在群集中服务间进行镜像,并且保证服务器间的数据完全一致性,为热备方案提供数据可靠性。

四、纯软群集的简介 (一)、高可用硬件配置

高可用解决方案的硬件通常有2种硬件配置方案,针对不同的硬件配置提供给的高可用软件的也不相同。一种需要共享磁盘的高可用解决方案,即服务器中的数据都放到共享磁盘中,所有的服务其都能访问共享存储的数据,但服务运行时,为了数据的安全性,该数据只能被启动业务的服务器所访问,其它服务器是不能访问的;一种是不需要共享磁盘的高可用解决方案,服务器的数据进行实时镜像,保证服务器数据的一致性,因而不需要共享磁盘整列,从而减少硬件的投入成本,纯软群集属于第二种群集模式。

纯软群集硬件配置

群集软件的解决方案就是避免单点故障出现,因而所有硬件都需要冗余的,包括两台服务器(我们称这种环境为双机容错),而部署多机高可用集群环境时, 服务器则是多台。每台服务器拥有足够的I/O能力、内存容量、系统硬盘空间、网卡部件,使得配置能够在使用中符合系统的需求,并能够最大限度的降低系统停机时间,同时为满足镜像需要,镜像的网线需要千兆网卡以上。

单独的镜像软件,无需较贵的RAID磁盘子系统,无需考虑小型计算机系统接口(SCSI)对缆线长度的限制,去除了单点故障(磁盘阵列子系统)。集群计算机环境所要考虑的主要问题是系统总开销,而使用镜像软件的热备容错软件是解决这个问题的首选方案。公司只需最小的硬件集成便可以得到低价、高可用性的方案。

机镜像软件在局域网的服务器之间提供完全基于软件的镜像。一个服务器被指定为主服务,另一个为从服务器。客户只能对主服务器上的镜像盘或分区,从服务器上相应的磁盘或分区锁定以防对数据的存取,除非在主服务器上检测到故障状态。这是实现一个高性能方案要考虑的一个重要问题,因为数据的完整性是主要因素。尽管镜像软件可以单独使用,但是与热备和容错软件配合使用会显著增强它的功能。

(一)、数据镜像特性

在群集镜像环境下,一个镜像是主服务器上的整块硬盘或分区,其内容与从服务器上的相关磁盘通过LAN同步。在磁盘镜像建立后,主服务器和从服务器上的数据已经同步,并且两个服务器都已启动运行,会有下面的特征:

1.         最初的镜像建立后,系统禁止所有用户存取从服务器的镜像数据,不允许对从服务器上的镜像数据读和写。主服务器镜像则可以进行读和写操作。

2.         无论何时主服务器收到一个写请求,系统首先决定这个请求是否针对镜像磁盘数据。如果不是,写操作可以完全正常的完成。如果主服务器写请求是针对镜像卷的,那么请求被同时送到主从镜像卷中去。如果是同步镜像,则只有当主从镜像卷上执行的写请求都完成后,才继续下一个写操作;如果是异步镜像,则当主镜像卷上写请求都完成后,就可以继续下一个写操作。

3.         如果执行镜像数据写操作时从系统磁盘发生错误,那么从系统上的写操作将被中止,主系统继续自己的镜像数据写请求;如果是主系统磁盘发生错误,则会根据用户设定策略,继续用从系统磁盘进行读写,或者将应用切换到从系统。

(二)、群集特性

l         群集提供的全系统检测功能与镜像的数据镜像功能相辅相承,使群集系统无需昂贵的磁盘阵列子系统。

l         使用镜像功能将数据由一个主机系统镜像到另一个主机系统,并与群集相结合,可有效的避免磁盘阵列子系统中单点故障的可能性。

l         当主备服务器发生切换时。群集系统开机后并不是将备机数据分区或硬盘全部复制到主服务器,而是将备机中变化的数据部分复制到主服务器,从而减少了数据复制的时间,同时也增加了数据的安全性。

l         具备远程的灾难复原能力

n         镜像群集在服务器端的数据复制能力。

n         镜像群集有在局域网和广域网的数据复制能力。

n         所有镜像群集都可以配合双机热备软件,实现异地的数据备份功能。

(三)、镜像群集的优点

l         避免了磁盘阵列的单点故障:对于需要共享磁盘整列的群集,本身即是防范由于单个设备的故障导致服务中断,但磁盘阵列恰恰又形成了一个新的单点。(比如,服务器的可靠系数是99.9%, 磁盘阵列的可靠系数是99.95%,则纯软群集的可靠系数是1-99.9%x99.9%=99.99%,而基于磁盘阵列的群集可靠系数则会是略低于99.95%

l         节约投资:不需购买昂贵的磁盘阵列。

l         不受距离的限制:两台服务器不需受SCSI电缆的长度限制(光纤通道的磁盘阵列也不受距离限制,但投资会大得多)。这样,可以更灵活地部署服务器,包括通过物理位置的距离来提高安全性。

 

分享 举报

发表评论 评论 (2 个评论)

涂鸦板