容错技术

容错技术

中文名 容错技术
定义 利用冗余硬件交叉检测操作结果
目录导航

基本内容

容错技术的历史与发展趋势

  上世纪80年代,第一代容错技术就开始进入商用领域。美国Stratus(容错公司)在Stratus独特的硬件级容错技术及VOS专有操作系统环境下,采用了Motorola M68000处理器。

  1993年,Intel I860处理器在Stratus的硬件级容错体系结构中成功应用,在软件环境方面,还能满足业界对开放性要求的Unix操作系统FTX,即AT&T UNIX SVR4。

  1996年,容错技术得到HP的支持,共同推出Stratus Continuum系列,将Stratus容错结构结合HP PA-RISC对称多处理技术。

  进入21世纪以来,制造、中小企业、能源、交通等领域对服务器,特别是中低端IA服务器的需求激增,过去仅仅可以应用在RISC平台、HP-UX环境下的容错产品也面临着新的挑战。另一方面,企业越来越依赖信息系统来完成关键业务的应用,同时他们不可能配备更多的专业人员来进行专职维护。双机热备、集群服务器遇到难题。

  如今:NEC通过与美国容错公司多年的合作,于2001年推出了业界第一台基于IA架构、支持Microsoft Win-dows Server 2000标准操作系统环境的容错服务器。NEC的Express5800/ft系列在Windows及Linux平台上的可靠性达到了99.999%,这种实时保护技术来源于STRATUS连续处理技术(Fundamentals of Continuous Pro-cessing Design),它包括:

  1、LOCKSTEP 技术

  LOCKSTEP技术使用相同的、冗余的硬件组件在同一时间内处理相同的指令。LOCKSTEP技术可以保持多个CPU、内存精确的同步,在正确的相同时钟周期内执行相同的指令。该技术保证能够发现任何错误,即使短暂的错误,系统也能在不间断处理和不损失数据的情况下恢复正常运行。

  2、安全故障(FAILSAFE)软件

  FAILSAFE 软件和LOCKSTEP技术运行一样,可防止很多软件错误和储运耗损。该软件在Windows 2000/2003环境下采用热插拔、内存镜像、负载均衡、多点终止失效、多通道I/O等方式,大大增强了系统连续运行的稳定性。

  FAILSAFE可以管理和诊断特征捕获,分析和通报服务器的软件问题,从而允许个人在软件发生错误之前去纠正错误。FAILSAFE软件的下列功能增强了NEC Express5800/ft系统在Windows环境中的可靠性:保护短暂的硬件故障;通过增强的驱动程序预防软件失效;软件问题的捕获、分析及修正;内存数据的连续性维持;丰富的纠错功能可以解决各种不同的错误。为了避免物理撞击等意外故障,安全故障软件还提供了自动重启功能,能够将宕机前CPU与内存数据即时保存下来,最大限度地避免数据的意外丢失。

  3、激活服务(ACTIVE SERVICE )

  当然,假如容错服务器的硬件发生永久性故障,尽管系统能够正常运行,也必须及时更换硬件才能维持容错的冗余架构。容错服务器都配备了简易直观的图形界面来管理监测工具,(如NECExpress5800/ft提供了ESMPRO 管理软件),能够对服务器中硬件运行及故障状态进行适时监控。

  未来

  容错技术的应用已经开始从过去的证券、电信等领域进入基础行业,如制造、能源、物流、交通及有着"7×24"不间断运营需求的中小商业团体和政府。NEC为迎合互联网的高速增长,为容错服务器引入了最新的稳定、安全、可升级、功能强大的Linux版本。

  容错的未来将会向更高的可用性、更卓越的可维护性发展。调查显示,越来越多的用户开始注重TCO(总拥有成本)而不是初期购买价格,更多的企业决定逐步放弃采用双机热备的方式来维护复杂的集群服务器,转而将目光瞄向具有容错技术的平台或容错服务器平台。

  在中国市场,NEC 公司与神州数码的合作在一定程度上弥补了容错服务器在中国市场服务拓展领域的短板。这将引发国内各领域的容错技术与应用的井喷式发展。IDC最重要的业务之一就是数据资源的管理与保护,用以满足用户个性化的需求。因此,存储系统所起的作用至关重要,它将决定IDC所提供的服务质量的高低。一般来讲,IDC中的数据保护最关注三个方面的内容。

数据备份技术

目前最先进的是基于网络的备份系统。理想的备份系统应该是全方位、多层次的。网络存储备份管理系统对整个网络的数据进行管理。利用集中式管理工具的帮助,系统管理员可对全网的备份策略进行统一管理,备份服务器可以监控所有机器的备份作业,也可以修改备份策略,并可即时浏览所有目录。所有数据可以备份到同备份服务器或应用服务器相连的任意一台磁带库内。

服务器容错技术

服务器容错技术的出现极大地降低了企业业务在各种不可预料灾难发生时的损失,保证业务系统的7×24小时不间断运转。

1.双机热备(Hot Standby)

双机热备是计算机应用系统稳定、可靠、有效、持续运行的重要保证。它通过系统冗余的方法解决计算机应用系统的可靠性问题,并具有安装维护简单、稳定可靠、监测直观等优点。

2.服务器集群(CLUSTER)

位于网络运转中心部位的数据中心是各种关键性商务应用的中枢点,在确保高可用性方面,服务器集群堪称是最具价值的系统级技术之一。一个服务器群是通过将多台服务器互联在一起而形成的。它以松散的成对配置共享资源。集群具有一定的自我修正能力,它可以保证系统24x7的不间断运行,把非计划和计划的停机时间降到最低。

SAN允许服务器在共享存储装置的同时仍能高速传送数据。这一方案具有带宽高、可用性高、容错能力强的优点,而且它可以轻松升级,容易管理,有助于改善整个系统的总体成本状况。

灾难恢复和容灾方案

异地容灾解决方案以存储区域网络为基础,在存储区域网络与网络之间通过LAN或WAN相连,速度可从T1到OC3自由选择。通过光纤通道SAN或借助于广域网扩展的SAN到远程的复制,支持同步和异步的容灾镜像,支持全面的磁盘同步,当出现很大的灾难时,确保这些数据在另外一个地点的在线拷贝是可用的,以支持尽快恢复在另一台机器上的关键处理。

相关百科
返回顶部
产品求购 求购