集群扫盲篇：Linux高性能计算集群概述

微博文章来源:网络整理本站编辑:兰特

1、集群

1.1 什么是集群

简单的说，集群(cluster)就是一组计算机，它们作为一个整体向用户提供一组网络资源。这些单个的计算机系统就是集群的节点(node)。一个理想的集群是，用户从来不会意识到集群系统底层的节点，在他/她们看来，集群是一个系统，而非多个计算机系统。并且集群系统的管理员可以随意增加和删改集群系统的节点。

1.2 为什么需要集群

集群并不是一个全新的概念，其实早在七十年代计算机厂商和研究机构就开始了对集群系统的研究和开发。由于主要用于科学工程计算，所以这些系统并不为大家所熟知。直到Linux集群的出现，集群的概念才得以广为传播。

对集群的研究起源于集群系统的良好的性能可扩展性(scalability)。提高CPU主频和总线带宽是最初提供计算机性能的主要手段。但是这一手段对系统性能的提供是有限的。接着人们通过增加CPU个数和内存容量来提高性能，于是出现了向量机，对称多处理机(SMP)等。但是当CPU的个数超过某一阈值，象SMP这些多处理机系统的可扩展性就变的极差。主要瓶颈在于CPU访问内存的带宽并不能随着CPU个数的增加而有效增长。与SMP相反，集群系统的性能随着CPU个数的增加几乎是线性变化的。图1显示了这中情况。

集群系统的优点并不仅在于此。下面列举了集群系统的主要优点:

高可扩展性:如上所述。

高可用性:集群中的一个节点失效，它的任务可以传递给其他节点。可以有效防止单点失效。

高性能:负载平衡集群允许系统同时接入更多的用户。

高性价比:可以采用廉价的符合工业标准的硬件构造高性能的系统。

1.2.1 集群系统的分类

虽然根据集群系统的不同特征可以有多种分类方法，但是一般我们把集群系统分为两类:

高可用(High Availability)集群,简称HA集群。这类集群致力于提供高度可靠的服务。

高性能计算(High Perfermance Computing)集群，简称HPC集群。这类集群致力于提供单个计算机所不能提供的强大的计算能力。

2、高可用集群

2.1 什么是高可用性

计算机系统的可用性(availability)是通过系统的可靠性(reliability)和可维护性(maintainability)来度量的。工程上通常用平均无故障时间(MTTF)来度量系统的可靠性，用平均维修时间(MTTR)来度量系统的可维护性。于是可用性被定义为:

MTTF/(MTTF+MTTR)*100%

业界根据可用性把计算机系统分为如下几类:

表1. 系统可用性分类

可用比例(Percent Availability) 年停机时间(downtime/year) 可用性分类

99.5 3.7天常规系统(Conventional)

99.9 8.8小时可用系统(Available)

99.99 52.6分钟高可用系统(Highly Available)

99.999 5.3分钟 Fault Resilient

99.9999 32秒 Fault Tolerant

对于关键业务，停机通常是灾难性的。因为停机带来的损失也是巨大的。下面的统计数字列举了不同类型企业应用系统停机所带来的损失。

表 2. 停机给企业带来的损失

应用系统每分钟损失(美元)

呼叫中心(Call Center) 27000

企业资源计划(ERP)系统13000

供应链管理(SCM)系统 11000

电子商务(eCommerce)系统 10000

客户服务(Customer Service Center)系统 27000

随着企业越来越依赖于信息技术，由于系统停机而带来的损失也越拉越大。

2.2 高可用集群

高可用集群就是采用集群技术来实现计算机系统的高可用性。高可用集群通常有两种工作方式:

容错系统:通常是主从服务器方式。从服务器检测主服务器的状态，当主服务工作正常时，从服务器并不提供服务。但是一旦主服务器失效，从服务器就开始代替主服务器向客户提供服务。

负载均衡系统:集群中所有的节点都处于活动状态，它们分摊系统的工作负载。一般Web服务器集群、数据库集群和应用服务器集群都属于这种类型。

关于高可用集群的讨论很多，这里就不进行深入的阐述了。

奇异新闻网|对错网|海鸟网