虚拟化技术与多任务以及超线程技术是完全不同的。多任务是指在一个操作系统中多个程序同时一起运行,而在虚拟化技术中,则可以同时运行多个操作系统,而且每一个操作系统中都有多个程序运行,每一个操作系统都运行在一个虚拟的CPU或者是虚拟主机上;而超线程技术只是单CPU模拟双CPU来平衡程序运行性能,这两个模拟出来的CPU是不能分离的,只能协同工作。
虚拟化技术也与VMware Workstation等同样能达到虚拟效果的软件不同,是一个巨大的技术进步,具体表现在减少软件虚拟机相关开销和支持更广泛的操作系统方面。
纯软件虚拟化解决方案存在很多限制。“客户”操作系统很多情况下是通过VMM(Virtual Machine Monitor,虚拟机监视器)来与硬件进行通信,由VMM来决定其对系统上所有虚拟机的访问。(注意,大多数处理器和内存访问独立于VMM,只在发生特定事件时才会涉及VMM,如页面错误。)在纯软件虚拟化解决方案中,VMM在软件套件中的位置是传统意义上操作系统所处的位置,而
操作系统的位置是传统意义上应用程序所处的位置。
虚拟化技术是一套解决方案。完整的情况需要CPU、主板芯片组、BIOS和软件的支持,例如VMM软件或者某些操作系统本身。即使只是CPU支持虚拟化技术,在配合VMM的软件情况下,也会比完全不支持虚拟化技术的系统有更好的性能。
两大CPU巨头Intel和AMD都想方设法在虚拟化领域中占得先机,但是AMD的虚拟化技术在时间上要比Intel落后几个月。Intel自2005年末开始便在其处理器产品线中推广应用Intel Virtualization Technology(Intel VT)虚拟化技术。
而AMD方面也已经发布了支持AMD Virtualization Technology(AMDVT)虚拟化技术的一系列处理器产品,包括SocketS1接口的Turion 64 X2系列以及Socket AM 2接口的Athlon 64 X2系列和Athlon64FX系列等等,并且绝大多数的AMD下一代主流处理器,包括即将发布的SocketF接口的Opteron都将支持AMDVT虚拟化技术。
虚拟机是对真实计算环境的抽象和模拟,VMM需要为每个虚拟机分配一套数据结构来管理它们状态,包括虚拟处理器的全套寄存器,物理内存的使用情况,虚拟设备的状态等等。VMM调度虚拟机时,将其部分状态恢复到主机系统中。并非所有的状态都需要恢复,例如主机CR3寄存器中存放的是VMM设置的页表物理地址,而不是Guest OS设置的值。主机处理器直接运行Guest OS的机器指令,由于Guest OS运行在低特权级别,当访问主机系统的特权状态(如写GDT寄存器)时,权限不足导致主机处理器产生异常,将运行权自动交还给VMM。此外,外部中断的到来也会导致VMM的运行。
VMM可能需要先将该虚拟机的当前状态写回到状态数据结构中,分析虚拟机被挂起的原因,然后代表Guest OS执行相应的特权操作。最简单的情况,如Guest OS对CR3寄存器的修改,只需要更新虚拟机的状态数据结构即可。一般而言,大部分情况下,VMM需要经过复杂的流程才能完成原本简单的操作。最后VMM将运行权还给Guest OS,Guest OS从上次被中断的地方继续执行,或处理VMM“塞”入的虚拟中断和异常。这种经典的虚拟机运行方式被称为Trap-And-Emulate,虚拟机对于Guest OS完全透明,Guest OS不需要任何修改,但是VMM的设计会比较复杂,系统整体性能受到明显的损害。
x86处理器有4个特权级别,Ring 0~Ring 3,只有运行在Ring 0~2级时,处理器才可以访问特权资源或执行特权指令;运行在Ring 0级时,处理器可以访问所有的特权状态。x86平台上的操作系统一般只使用Ring 0和Ring 3这两个级别,操作系统运行在Ring 0级,用户进程运行在Ring 3级。为了满足上面的第一个充分条件-资源控制,VMM自己必须运行在Ring 0级,同时为了避免GuestOS控制系统资源,Guest OS不得不降低自身的运行级别,运行在Ring 1或Ring 3级(Ring2不使用)。
(Ring Compression)
VMM使用分页或段限制的方式保护物理内存的访问,但是64位模式下段限制不起作用,而分页又不区分Ring 0,1,2。为了统一和简化VMM的设计,Guest OS只能和Guest进程一样运行在Ring 3级。VMM必须监视Guest OS对GDT、IDT等特权资源的设置,防止Guest OS运行在Ring 0级,同时又要保护降级后的Guest OS不受Guest进程的主动攻击或无意破坏。
(Ring Alias)
特权级别名是指Guest OS在虚拟机中运行的级别并不是它所期望的。VMM必须保证GuestOS不能获知正在虚拟机中运行这一事实,否则可能打破等价性条件。例如,x86处理器的特权级别存放在CS代码段寄存器内,GuestOS可以使用非特权push指令将CS寄存器压栈,然后pop出来检查该值。又如,GuestOS在低特权级别时读取特权寄存器GDT、LDT、IDT和TR,并不发生异常,从而可能发现这些值与自己期望的不一样。为了解决这个挑战,VMM可以使用动态二进制翻译的技术,例如预先把“push%%cs”指令替换,在栈上存放一个影子CS寄存器值;又如,可以把读取GDT寄存器的操作“sgdt dest”改为“movl fake_gdt,dest”。
(Address Space Compression)
地址空间压缩是指VMM必须在Guest OS的地址空间中保留一部分供其使用。例如,中断描述表寄存器(IDT Register)中存放的是中断描述表的线性地址,如果Guest OS运行过程中来了外部中断或触发处理器异常,必须保证运行权马上转移到VMM中,因此VMM需要将Guest OS的一部分线性地址空间映射成自己的中断描述表的主机物理地址。VMM可以完全运行在Guest OS的地址空间中,也可以拥有独立的地址空间,后者的话,VMM只占用Guest OS很少的地址空间,用于存放中断描述表和全局描述符表(GDT)等重要的特权状态。无论如何哪种情况,VMM应该防止Guest OS直接读取和修改这部分地址空间。
内存是一种非常重要的系统资源,VMM必须全权管理,Guest OS理解的物理地址只是客户机物理地址(Guest Physical Address),并不是最终的主机物理地址(Host Physical Address)。当GuestOS发生缺页异常时,VMM需要知道缺页异常的原因,是Guest进程试图访问没有权限的地址,或是客户机线性地址(Guest Linear Address)尚未翻译成Guest Physical Address,还是客户机物理地址尚未翻译成主机物理地址。一种可行的解决方法是VMM为Guest OS的每个进程的页表构造一个影子页表,维护Guest Linear Address到Host Physical Address的映射,主机CR3寄存器存放这个影子页表的物理内存地址。VMM同时维护一个Guest OS全局的Guest Physical Address到Host Physical Address的映射表。发生缺页异常的地址总是Guest Linear Address,VMM先去Guest OS中的页表检查原因,如果页表项已经建立,即对应的Guest Physical Address存在,说明尚未建立到Host Physical Address的映射,那么VMM分配一页物理内存,将影子页表和映射表更新;否则,VMM返回到Guest OS,由Guest OS自己处理该异常。
系统调用是操作系统提供给用户的服务例程,使用非常频繁。最新的操作系统一般使用SYSENTER/SYSEXIT指令对来实现快速系统调用。SYSENTER指令通过IA32_SYSENTER_CS,IA32_SYSENTER_EIP和IA32_SYSENTER_ESP这3个MSR(Model Specific Register)寄存器直接转到Ring 0级;而SYSEXIT指令不在Ring 0级执行的话将触发异常。因此,如果VMM只能采取Trap-And-Emulate的方式处理这2条指令的话,整体性能将会受到极大损害。
所有的外部中断和主机处理器的异常直接由VMM接管,VMM构造必需的虚拟中断和异常,然后转发给Guest OS。VMM需要模拟硬件和操作系统对中断和异常的完整处理流程,例如VMM先要在Guest OS当前的内核栈上压入一些信息,然后找到Guest OS相应处理例程的地址,并跳转过去。VMM必须对不同的Guest OS的内部工作流程比较清楚,这增加了VMM的实现难度。同时,Guest OS可能频繁地屏蔽中断和启用中断,这两个操作访问特权寄存器EFLAGS,必须由VMM模拟完成,性能因此会受到损害。Guest OS重新启用中断时,VMM需要及时地获知这一情况,并将积累的虚拟中断转发。
GuestOS对特权资源的每次访问都会触发处理器异常,然后由VMM模拟执行,如果访问过于频繁,则系统整体性能将会受到极大损害。比如对中断的屏蔽和启用,cli(Clear Interrupts)指令在Pentium 4处理器上需要花费60个时钟周期(cycle)。又如,处理器本地高级可编程中断处理器(Local APIC)上有一个操作系统可修改的任务优先级寄存器(Task-Priority Register),IO-APIC将外部中断转发到TPR值最低的处理器上(期望该处理器正在执行低优先级的线程),从而优化中断的处理。TPR是一个特权寄存器,某些操作系统会频繁设置(Linux Kernel只在初始化阶段为每个处理器的TPR设置相同的值)。
软件VMM所遇到的以上挑战从本质上来说是因为Guest OS无法运行在它所期望的最高特权级,传统的Trap-And-Emulate处理方式虽然以透明的方式基本解决上述挑战,但是带来极大的设计复杂性和性能下降。当前比较先进的虚拟化软件结合使用二进制翻译和超虚拟化的技术,核心思想是动态或静态地改变Guest OS对特权状态访问的操作,尽量减少产生不必要的硬件异常,同时简化VMM的设计。
最流行的虚拟化方法使用名为hypervisor的一种软件,在虚拟服务器和底层硬件之间建立一个抽象层。VMware和微软的Virtual PC是代表该方法的两个商用产品,而基于核心的虚拟机(KVM)是面向Linux系统的开源产品。
hypervisor可以捕获CPU指令,为指令访问硬件控制器和外设充当中介。因而,完全虚拟化技术几乎能让任何一款操作系统不用改动就能安装到虚拟服务器上,而它们不知道自己运行在虚拟化环境下。主要缺点是,hypervisor给处理器带来开销。
在完全虚拟化的环境下,hypervisor运行在裸硬件上,充当主机操作系统;而由hypervisor管理的虚拟服务器运行客户端操作系统(guest OS)。
如下图所示。
完全虚拟化是处理器密集型技术,因为它要求hypervisor管理各个虚拟服务器,并让它们彼此独立。减轻这种负担的一种方法就是,改动客户操作系统,让它以为自己运行在虚拟环境下,能够与hypervisor协同工作。这种方法就叫准虚拟化(para-virtualization)。
Xen是开源准虚拟化技术的一个例子。操作系统作为虚拟服务器在Xenhypervisor上运行之前,它必须在核心层面进行某些改变。因此,Xen适用于BSD、Linux、Solaris及其他开源操作系统,但不适合对像Windows这些专有的操作系统进行虚拟化处理,因为它们无法改动。
准虚拟化技术的优点是性能高。经过准虚拟化处理的服务器可与hypervisor协同工作,其响应能力几乎不亚于未经过虚拟化处理的服务器。准虚拟化与完全虚拟化相比优点明显,以至于微软和VMware都在开发这项技术,以完善各自的产品。
实现虚拟化还有一个方法,那就是在操作系统层面增添虚拟服务器功能。Solaris Container就是这方面的一个例子,Virtuozzo/Open VZ是面向Linux的软件方案。
就操作系统层的虚拟化而言,没有独立的hypervisor层。相反,主机操作系统本身就负责在多个虚拟服务器之间分配硬件资源,并且让这些服务器彼此独立。一个明显的区别是,如果使用操作系统层虚拟化,所有虚拟服务器必须运行同一操作系统(不过每个实例有各自的应用程序和用户账户)。
虽然操作系统层虚拟化的灵活性比较差,但本机速度性能比较高。此外,由于架构在所有虚拟服务器上使用单一、标准的操作系统,管理起来比异构环境要容易。
这一额外的通信层需要进行二进制转换,以通过提供到物理资源(如处理器、内存、存储、显卡和网卡等)的接口,模拟硬件环境。这种转换必然会增加系统的复杂性。此外,客户操作系统的支持受到虚拟机环境的能力限制,这会阻碍特定技术的部署,如64位客户操作系统。在纯软件解决方案中,软件堆栈增加的复杂性意味着,这些环境难于管理,因而会加大确保系统可靠性和安全性的困难。
而CPU的虚拟化技术是一种硬件方案,支持虚拟技术的CPU带有特别优化过的指令集来控制虚拟过程,通过这些指令集,VMM会很容易提高性能,相比软件的虚拟实现方式会很大程度上提高性能。虚拟化技术可提供基于芯片的功能,借助兼容VMM软件能够改进纯软件解决方案。由于虚拟化硬件可提供全新的架构,支持操作系统直接在上面运行,从而无需进行二进制转换,减少了相关的性能开销,极大简化了VMM设计,进而使VMM能够按通用标准进行编写,性能更加强大。另外,在纯软件VMM中,缺少对64位客户操作系统的支持,而随着64位处理器的不断普及,这一严重缺点也日益突出。而CPU的虚拟化技术除支持广泛的传统操作系统之外,还支持64位客户操作系统。
Intel已经发布了具有Intel VT虚拟化技术的一系列处理器产品,包括桌面平台的Pentium 46 X2系列、Pentium D9X0系列和Pentium EE9XX系列,以及服务器/工作站平台上的基于Paxville核心的Xeon系列;同时绝大多数的Intel下一代主流处理器,包括Merom核心移动处理器,Conroe核心桌面处理器,Woodcrest核心服务器处理器,以及基于Montecito核心的Itanium2高端服务器处理器都将支持Intel VT虚拟化技术。而AMD的具有代号为“Pacific”虚拟化技术的CPU不久也会发布。
相关:虚拟技术
当前非常热门的Virtualization虚拟化技术的出现和应用其实已经有数十年的历史了,在早期,这个技术主要应用在服务器以及大型主机上面,随着PC性能的不断增长,Virtualization也
开始逐渐在x86架构上流行起来。虚拟化可以将IT环境改造成为更加强大、更具弹性、更富有活力的架构。通过把多个操作系统整合到一台高性能服务器上,最大化利用硬件平台的所有资源,用更少的投入实现更多的应用,还可以简化IT架构,降低管理资源的难度,避免IT架构的非必要扩张。客户虚拟机的真正硬件无关性还可以实现虚拟机的运行时迁移,可以实现真正的不间断运行,从而最大化保持业务的持续性,而不用为购买超高可用性平台而付出高昂的代价。虚拟化技术和Sun上的虚拟化技术(CPU分区)比起来,x86上的虚拟化要落后不少的,然而确实在不断进步着,在数年前,x86上还没有什么硬件支持,甚至连指令集都不是为虚拟化而设计,这时主要靠完全的软件来实现虚拟化,当时的代表是VMware的产品,以及尚未被Microsoft收购Connectix开发的VirtualPC,在服务器市场上应用的主要是VMware的产品,包括GSX Server和稍后的ESX Server,这些软件虚拟化产品在关键指令上都采用了二进制模拟/翻译的方法,开销显得比较大,后期出现了Para-Virtualization部分虚拟化技术,避免了一些二进制转换,性能得到了提升,不过仍然具有隔离性的问题。
虚拟化技术今天,虚拟化技术的各方面都有了进步,虚拟化也从纯软件逐深入到处理器级虚拟化,再到平台级虚拟化乃至输入/输出级虚拟化,代表性技术就是telVirtualization Technology for Directed I/O,简写为IntelVT-d,在介绍这个IntelVT-d之前,我们先来看看x86硬件虚拟化的第一步:处理器辅助虚拟化技术,也就是Intel Virtualization Technology,分为对应Itanium平台的VT-i和对应x86平台的VT-x两个版本。AMD公司也有对应的技术AMD-V,用于x86平台。我们介绍的是x86平台上的VT-x技术,VT-i技术原理上略为相近。纯软件虚拟化主要的问题是性能和隔离性。Full Virtualization完全虚拟化技
术可以提供较好的客户操作系统独立性,不过其性能不高,在不同的应用下,可以消耗掉主机10%~30%的资源。而OS Virtualization可以提供良好的性能,然而各个客户操作系统之间的独立性并不强。无论是何种软件方法,隔离性都是由Hypervisor软件提供的,过多的隔离必然会导致性能的下降。这些问题主要跟x86设计时就没有考虑虚拟化有关。我们先来看看x86处理器的Privilege特权等级设计。虚拟化技术x86架构为了保护指令的运行,提供了指令的4个不同Privilege特权级别,术语称为Ring,从Ring 0~Ring 3。Ring 0的优先级最高,Ring 3最低。各个级别对可以运行的指令有所限制,例如,GDT,IDT,LDT,TSS等这些指令就只能运行于Privilege 0,也就是Ring 0。要注意Ring/Privilege级别和我们通常认知的进程在操作系统中的优先级并不同。
操作系统必须要运行一些Privilege 0的特权指令,因此Ring 0是被用于运行操作系统内核,Ring 1和Ring 2是用于操作系统服务,Ring 3则是用于应用程序。然而实际上并没有必要用完4个不同的等级,一般的操作系统实现都仅仅使用了两个等级,即Ring 0和Ring 3,如图所示:虚拟化技术也就是说,在一个常规的x86操作系统中,系统内核必须运行于Ring 0,而VMM软件以及其管理下的Guest OS却不能运行于Ring 0——因为那样就无法对所有虚拟机进行有效的管理,就像以往的协同式多任务操作系统(如,Windows 3.1)无法保证系统的稳健运行一样。在没有处理器辅助的虚拟化情况下,挑战就是采用Ring0之外的等级来运行VMM(Virtual Machine Monitor,虚拟机监视器)或Hypervisor,以及Guest OS。
现在流行的解决方法是RingDeprivileging(暂时译为特权等级下降),并具有两种选择:客户OS运行于Privilege1(0/1/3模型),或者Privilege3(0/3/3模型)。无论是哪一种模型,客户OS都无法运行于Privilege0,这样,如GDT,IDT,LDT,TSS这些特权指令就必须通过模拟的方式来运行,这会带来很明显的性能问题。特别是在负荷沉重、这些指令被大量执行的时候。同时,这些特权指令是真正的“特权”,隔离不当可以严重威胁到其他客户OS,甚至主机OS。Ring Deprivileging技术使用IA32架构的Segment Limit(限制分段)和Paging(分页)来隔离VMM和Guest OS,不幸的是EM64T的64bit模式并不支持Segment Limit模式,要想运行64bit操作系统,就必须使用Paging模式。对于虚拟化而言,使用Paging模式的一个致命之处是它不区分Privileg 0/1/2模式,因此客户机运行于Privileg 3就成为了必然(0/3/3模型),这样Paging模式才可以将主机OS和客户OS隔离开来,然而在同一个Privileg模式下的不同应用程序(如,不同的虚拟机)是无法受到Privileg机构保护的,这就是IA32带来的隔离性问题,这个问题被称为Ring Compression。IA32不支持VT,就无法虚拟64-bit客户操作系统这个问题的实际表现是:VMware在不支持IntelVT的IA32架构CPU上无法虚拟64-bit客户操作系统,因为无法在客户OS之间安全地隔离。作为一个芯片辅助(Chip-Assisted)的虚拟化技术,VT可以同时提升虚拟化效率和虚拟机的安全性,下面我们就来看看IntelVT带来了什么架构上的变迁。我们谈论的主要是IA32上的VT技术,一般称之为VT-x,而在Itanium平台上的VT技术,被称之为VT-i。
VT-x将IA32的CU操作扩展为两个forms(窗体):VMXrootoperation(根虚拟化操作)和VMX non-root operation(非根虚拟化操作),VMX root operation设计来供给VMM/Hypervisor使用,其行为跟传统的IA32并无特别不同,而VMXnon-rootoperation则是另一个处在VMM控制之下的IA32环境。所有的forms都能支持所有的四个Privilegeslevels,这样在VMXnon-rootoperation环境下运行的虚拟机就能完全地利用Privilege0等级。
两个世界:VMX non-root和VMXroot和一些文章认为的很不相同,VT同时为VMM和GuestOS提供了所有的Privilege运行等级,而不是只让它们分别占据一个等级:因为VMM和Guest OS运行于不同的两个forms。
由此,GDT、IDT、LDT、TSS等这些指令就能正常地运行于虚拟机内部了,而在以往,这些特权指令需要模拟运行。而VMM也能从模拟运行特权指令当中解放出来,这样既能解决Ring Aliasing问题(软件运行的实际Ring与设计运行的Ring不相同带来的问题),又能解决Ring Compression问题,从而大大地提升运行效率。Ring Compression问题的解决,也就解决了64bit客户操作系统的运行问题。
为了建立这种两个虚拟化窗体的架构,VT-x设计了一个Virtual-Machine Control Structure(VMCS,虚拟机控制结构)的数据结构,包括了Guest-State Area(客户状态区)和Host-StateArea(主机状态区),用来保存虚拟机以及主机的各种状态参数,并提供了VMentry和VMexit两种操作在虚拟机与VMM之间切换,用户可以通过在VMCS的VM-Inexecution control fields里面指定在执行何种指令/发生何种事件的时候,VMX non-root operation环境下的虚拟机就执行VMexit,从而让VMM获得控制权,因此VT-x解决了虚拟机的隔离问题,又解决了性能问题。
可以看到,InterVT的出现,可以解决了重要的虚拟处理器架构问题,让纯软件虚拟化解决方案的性能问题得以大大缓解。然而要做的事情还有很多。
对于服务器而言,很重要的一个组成部分就I/O,CPU的计算能力提升虽然可以更快地处理数据,但是前提是数据能够顺畅的到达CPU,因此,无论是存储,还是网络,以及图形卡、内存等,I/O能力都是企业级架构的一个重要部分。为此,人们不但在传输带宽上投资(比如从百兆以太网到千兆以太网再到万兆以太网),还在各种系统和架构上进行了大量的投入(比如吞吐量更高的RAID系列、多层数据中心)。
在虚拟化技术中,随着整体处理器资源的利用效率的提升,对数据I/O也提出了更高的要求。
VMM虚拟机管理器必须提供I/O虚拟化来支持处理来自多个客户机的I/O请求,当前的虚拟化技术采用下列的方式来处理I/O虚拟化。
虚拟化技术模拟I/O设备:VMM对客户机摸拟一个I/O设备,通过完全模拟设备的功能,客户机可以使用对应真实的驱动程序,这个方式可以提供完美的兼容性(而不管这个设备事实上存不存在),但是显然这种模拟会影响到性能。作为例子,各种虚拟机在使用软盘映像提供虚拟软驱的时候,就运行在这样的方式,以及Virtual PC的模拟的真实的S3 Virge 3D显卡,VMware系列模拟的Sound Blaster 16声卡,都属于这种方式。
虚拟化技术额外软件界面:这个模型比较像I/O模拟模型,VMM软件将提供一系列直通的设备接口给虚拟机,从而提升了虚拟化效率,这有点像Windows操作系统的DirectX技术,从而提供比I/O模拟模型更好的性能,当然兼容性有所降低,例如VMware模拟的VMware显卡就能提供不错的显示速度,不过不能完全支持DirectDraw技术,Direct 3D技术就更不用想了。相似的还有VMware模拟的千兆网卡,等等,这些品牌完全虚拟的设备(例如,VMware牌显卡,VMware牌网卡)需要使用特制的驱动程序部分直接地和主机、硬件通信,比起以前完全模拟的通过虚拟机内的驱动程序访问虚拟机的十兆百兆网卡,可以提供更高的吞吐量。
一般的I/O设备虚拟化主要是采用模拟方式或者软件接口方式,因此性能上很容易成为瓶颈——毕竟传统的机器上,I/O设备都很容易成为瓶颈,因此Intel就适时提出了Intel Virtualization Technology for Directed I/O,简称为Intel VT-d。
I/O虚拟化的关键在于解决I/O设备与虚拟机数据交换的问题,而这部分主要相关的是DMA直接内存存取,以及IRQ中断请求,只要解决好这两个方面的隔离、保护以及性能问题,就是成功的I/O虚拟化。
虚拟化技术和处理器上的Intel VT-i和VT-x一样,Intel VT-d技术是一种基于North Bridge北桥芯片(或者按照较新的说法:MCH)的硬件辅助虚拟化技术,通过在北桥中内置提供DMA虚拟化和IRQ虚拟化硬件,实现了新型的I/O虚拟化方式,Intel VT-d能够在虚拟环境中大大地提升I/O的可靠性、灵活性与性能。
传统的IOMMUs(I/Omemory management units,I/O内存管理单元)提供了一种集中的方式管理所有的DMA——除了传统的内部DMA,还包括如AGPGART、TPT、RDMA over TCP/IP等这些特别的DMA,它通过在内存地址范围来区别设备,因此容易实现,却不容易实现DMA隔离,因此VT-d通过更新设计的IOMMU架构,实现了多个DMA保护区域的存在,最终实现了DMA虚拟化。这个技术也叫做DMARemapping。
虚拟化技术I/O设备会产生非常多的中断请求,I/O虚拟化必须正确地分离这些请求,并路由到不同的虚拟机上。传统设备的中断请求可以具有两种方式:一种将通过I/O中断控制器路由,一种是通过DMA写请求直接发送出去的MSI(message signaled interrupts,消息中断),由于需要在DMA请求内嵌入目标内存地址,因此这个架构须要完全访问所有的内存地址,并不能实现中断隔离。
VT-d实现的中断重映射(interrupt-remapping)架构通过重新定义MSI的格式来解决这个问题,新的MSI仍然是一个DMA写请求的形式,不过并不嵌入目标内存地址,取而代之的是一个消息ID,通过维护一个表结构,硬件可以通过不同的消息ID辨认不同的虚拟机区域。VT-d实现的中断重映射可以支持所有的I/O源,包括IOAPICs,以及所有的中断类型,如通常的MSI以及扩展的MSI-X。
VT-d进行的改动还有很多,如硬件缓冲、地址翻译等,通过这些种种措施,VT-d实现了北桥芯片级别的I/O设备虚拟化。VT-d最终体现到虚拟化模型上的就是新增加了两种设备虚拟化方式:
左边是传统的I/O模拟虚拟化,右边是直接I/O设备分配
直接I/O设备分配:虚拟机直接分配物理I/O设备给虚拟机,这个模型下,虚拟机内部的驱动程序直接和硬件设备直接通信,只需要经过少量,或者不经过VMM的管理。为了系统的健壮性,需要硬件的虚拟化支持,以隔离和保护硬件资源只给指定的虚拟机使用,硬件同时还需要具备多个I/O容器分区来同时为多个虚拟机服务,这个模型几乎完全消除了在VMM中运行驱动程序的需求。例如CPU,虽然CPU不算是通常意义的I/O设备——不过它确实就是通过这种方式分配给虚拟机,当然CPU的资源还处在VMM的管理之下。
I/O设备共享:这个模型是I/O分配模型的一个扩展,对硬件具有很高的要求,需要设备支持多个功能接口,每个接口可以单独分配给一个虚拟机,这个模型无疑可以提供非常高的虚拟化性能表现。
运用VT-d技术,虚拟机得以使用直接I/O设备分配方式或者I/O设备共享方式来代替传统的设备模拟/额外设备接口方式,从而大大提升了虚拟化的I/O性能。
根据资料表明,不日发布的Stoakley平台和Caneland平台上将包含VT-d功能,Stoakley平台是Bensley的下一代产品,用于双路Xeon处理器,而Caneland则是Truland的继任者,用于四路Xeon处理器,这些芯片组都能支持最新的45nm Penryn处理器。
虚拟化技术从Intel虚拟化技术发展路线图来看,虚拟化无疑是从处理器逐渐扩展到其他设备的,从VT-i/VT-x到VT-d就非常体现了这个过程,对于关注I/O性能的企业级应用而言,完成了处理器的虚拟化和I/O的虚拟化,整个平台的虚拟化就接近完成了,因此在未来,Intel将会持续地开发VT-d技术,将各种I/O设备中加入虚拟化特性,从而提供一个强大的虚拟化基础架构。
AMD虚拟化技术--降低操作成本,提高商业价值低成本运营是在当今经济形势下开展业务面临的首要挑战。在不断改变的公司IT部门需求与注重预算的预期之间进行平衡时会出现的一些特殊难题。
通过支持在单一计算系统上同时运行多种操作系统、应用程序或用户会话,虚拟化可提供巨大的业务优势,从而有助于降低总体拥有成本,同时增加公司IT投资的价值与能力。
减少能耗和散热成本最小化数据中心空间与间接费用使当前软件投资发挥最大效益精简部署和升级过程提高性能、可管理性与数据安全性简化您服务器与客户端系统的基础设施 AMD在为x86计算机开发支持快速、高效的虚拟化功能领域处于业内领先地位,例如高能效的多核心处理器、先进的内存处理能力以及基于硬件的虚拟化技术。
简言之,AMD Virtualization技术是一项基于硬件的技术,该技术支持虚拟软件在一台基于AMD皓龙处理器的物理服务器上运行多个操作系统和应用,有助于服务器实现更高的效率和利用率。你无需再采用“一个操作系统、一个应用和一台服务器”这种运行模式。AMD的Virtualization技术使你能更好地利用自己的资源,你的服务器和工作站将变得更加高效,数据中心的运转也更加有效。例如,当今的服务器在以不足15%的容量运行时,其能耗和散热仍保持在24×7的水平。AMD Virtualization技术具有快速虚拟化索引的功能,这就意味着AMD四核皓龙处理器能够简化数据中心,实现更高的利用率。
AMD的片内安全和虚拟技术代号分别称作Presidio和Pacifica,据其官员表示将出现在Opteron处理器中。“每个人都预见到虚拟和安全技术能解决到数据中心的某些问题,”AMD的微处理器业务部总经理Marty Seyer说。
在安全方面,Presidio将利用到微软即将推出的Windows Vista中某些功能。但AMD更吸引人的一项举措是让其内存控制器更“虚拟智能化”——让芯片在一台虚拟机的不同虚拟地址之间建起一道坚固的壁垒。另外,这样还能让Presidio阻止某些黑客攻击。这类攻击通常会强迫机器借某张CD或某个分区上的操作系统启动并使用特别工具读取机器内存中的内容。
AMD称Presidio会不断改进以包含其他保护技术,例如加固键鼠等输入设备与操作系统之间通讯通道等。由于这种保护技术需要操作系统的帮助,微软为此已经计划为Vista添加多种类型的安全技术。
AMD的官员还表示将在2007年的处理器中添加对信用平台模块(Trusted Platform Module)1.2等Windows机器以外技术的支持。事实上,AMD正和开放信任运算机构合作开发Linux平台上的可信赖运算标准,预计集成TPM的服务器将在2007年上市。
至于用于减轻VMware等虚拟软件部分工作负担的Pacifica技术,AMD称也会不断改善并最终包含输入/输出虚拟技术。AMD已经开始这项Xen计划的研究工作,不过他们不愿透露相应产品何时上市。
AMD的Presidio和Pacifica技术和Intel的虚拟技术及"La Grande"安全技术十分相似。虽然Intel一直称到2007年首季才会向系统厂商推广使用新的双核奔腾D处理器"resler",但其实他们已经开始供货部分集成虚拟技术的奔腾四处理器,而LaGrande安全功能也会在2007年出现于Intel处理器中。
比较值得我们关注的应该是Pacifica虚拟技术,这将可以大大提高台式处理器的运行能力。Pacifica技术最突出的地方在于对内存控制器的改进方面。“Pacifica”通过Direct Connect Architecture(直接互连架构)和在处理器和内存控制器中引入一个新模型和功能来提高CPU的虚拟应用。
与过去的方法来进行虚拟应用不同,这项新的技术能够减少程序的复杂性,提高虚拟系统的安全性,并通过兼容现有的虚拟系统管理软件来减少花费在虚拟管理系统上的费用。例如,用户能在一部机器上轻易地创建多个独立且互相隔离的分区,从而减少了分区之间病毒传播的危险。不过,AMD在虚拟化技术方面仍比Intel慢了一步。
AMD表示其IO虚拟化技术规范已经成型,且技术授权完全免费,并将鼓励软硬件厂商采纳该技术并集成进PC中。
AMDAM2处理器
AMD已经和VMware、Xensource以及微软等公司结盟推广其虚拟化技术。
AMDAM2接口
AMD的虚拟化技术之前的开发代号为Pacifica,这种技术将在AMD2007年的64位CPU核心逻辑以及芯片组两个层面得以实现。
服务器使用一个输入/输出内存管理单元(Input/Output Memory Management Unit,IOMMU)将DMAI/O总线(如PCIe)连接到主存储器,和传统的内存管理单元一样,它将CPU可见的虚拟地址转换成物理地址,IOMMU会将设备可见的虚拟地址映射到物理地址,这些单元也提供了内存保护功能。
I/O虚拟化可以隔离和限制设备访问由分区管理设备拥有的资源。VT-d通过减少VMM参与管理I/O流量的需求,消除了大部分的性能开销,从而加速数据传输。基于纯软件的虚拟化技术中,用户操作系统与硬件设备通过VMM来通信,而借助VT-d,完成初始分配之后,数据即可直接在客户操作系统与为其分配的设备之间进行传输。这样,I/O流量的流动将更加迅速,减少的VMM工作运行则会进一步缩减服务器处理器的负载。此外,由于用于特定设备或客户操作系统的I/O数据不能被其它任何硬件或客户软件组件访问,VMM将特定I/O设备安全分配给特定客户操作系统。每个设备在系统内存中都有一个专用区域,只有该设备及其分配的客户操作系统才能对该区域进行访问,增强了虚拟化的安全性能。
硬件虚拟化
虚拟机(Virtual machine或VM),可以像真实机器一样运行程序的计算机的软件实现
便携式应用程序,允许程序在便携式设备中运行而不用在操作系统中安装
跨平台虚拟化,允许针对特定CPU或者操作系统的软件不做修改就能运行在其他平台上,例如Wine
虚拟设备,运行于虚拟化平台之上,面向应用的虚拟机映像
模拟器
完全虚拟化,敏感指令在操作系统和硬件之间被捕捉处理,客户操作系统无需修改,所有软件都能在虚拟机中运行,例如IBM CP/CMS,VirtualBox,VMware Workstation
硬件辅助虚拟化,利用硬件(主要是CPU)辅助处理敏感指令以实现完全虚拟化的功能,客户操作系统无需修改,例如VMware Workstation,Xen,KVM
部分虚拟化,针对部分应用程序进行虚拟,而不是整个操作系统
准虚拟化/超虚拟化(para virtualization),为应用程序提供与底层硬件相似但不相同的软件接口,客户操作系统需要进行修改,例如早期的Xen
操作系统级虚拟化,使操作系统内核支持多用户空间实体,例如Parallels Virtuozzo Containers,Unix-like系统上的chroot,Solaris上的Zone
平台虚拟化,将操作系统和硬件平台资源分割开
应用程序虚拟化,在操作系统和应用程序间建立虚拟环境
虚拟内存,将不相邻的内存区,甚至硬盘空间虚拟成统一连续的内存地址
存储虚拟化,将实体存储空间(如硬盘)分隔成不同的逻辑存储空间
网络虚拟化,将不同网络的硬件和软件资源结合成一个虚拟的整体
虚拟专用网络(VPN),在大型网络(通常是Internet)中的不同计算机(节点)通过加密连接而组成的虚拟网络,具有类似局域网的功能
存储器虚拟化,将网络系统中的随机存储器聚合起来,形成统一的虚拟内存池
桌面虚拟化,在本地计算机显示和操作远程计算机桌面,在远程计算机执行程序和储存信息
数据库虚拟化
软件虚拟化
服务虚拟化
虚拟化发展时间线
虚拟机迁移技术为服务器虚拟化提供了便捷的方法。当前流行的虚拟化工具如VMware,Xen,HyperV,KVM都提供了各自的迁移组件。迁移服务器可以为用户节省管理资金、维护费用和升级费用。以前的x86服务器,体积比较“庞大”;而一般的服务器,体积已经比以前小了许多,迁移技术使得用户可以用一台服务器来同时替代以前的许多台服务器,这样就节省了用户大量的机房空间。另外,虚拟机中的服务器有着统一的“虚拟硬件资源”,不像以前的服务器有着许多不同的硬件资源(如主板芯片组不同,网卡不同,硬盘,RAID卡,显卡不同)。迁移后的服务器,不仅可以在一个统一的界面中进行管理,而且通过某些虚拟机软件,如VMware提供的高可用性工具,在这些服务器因为各种故障停机时,可以自动切换到网络中另外相同的虚拟服务器中,从而达到不中断业务的目的。总之,迁移的优势在于简化系统维护管理,提高系统负载均衡,增强系统错误容忍度和优化系统电源管理。
V2P(虚拟机到物理机的迁移Virtual-to-Physica)
V2P指把一个操作系统、应用程序和数据从一个虚拟机中迁移到物理机的主硬盘上,是P2V的逆操作。它可以同时迁移虚拟机系统到一台或多台物理机上。尽管虚拟化的基本需求是整合物理机到虚拟机中,但这并不是虚拟化的唯一的应用。比如有时虚拟机上的应用程序的问题需要在物理机上验证,以排除虚拟环境带来的影响。另外,配置新的工作站是件令IT管理者头痛的事情,但虚拟化的应用可以帮助他解决这个难题。先配置好虚拟机,然后运用硬盘克隆工具复制数据至工作站硬件,比如赛门铁克的Save&Restore(Ghost)。不过这种克隆方法有两个局限:一个镜像只能运用在同种硬件配置的机器上;要想保存配置的修改,只能重做新的镜像。
V2V(虚拟机到虚拟机的迁移Virtual-to-Virtual)
V2V迁移是在虚拟机之间移动操作系统和数据,照顾主机级别的差异和处理不同的虚拟硬件。虚拟机从一个物理机上的VMM迁移到另一个物理机的VMM,这两个VMM的类型可以相同,也可以不同。如VMware迁移到KVM,KVM迁移到KVM。可以通过多种方式将虚拟机从一个VMHost系统移动到另一个VMHost系统。
P2V(物理机到虚拟机的迁移Physical-to-Virtua)
P2V指迁移物理服务器上的操作系统及其上的应用软件和数据到VMM(Virtual Machine Monitor)管理的虚拟服务器中。这种迁移方式,主要是使用各种工具软件,把物理服务器上的系统状态和数据“镜像”到VMM提供的虚拟机中,并且在虚拟机中“替换”物理服务器的存储硬件与网卡驱动程序。只要在虚拟服务器中安装好相应的驱动程序并且设置与原来服务器相同的地址(如TCP/IP地址等),在重启虚拟机服务器后,虚拟服务器即可以替代物理服务器进行工作。
虚拟化技术是当今企业热门技术之一,而服务器虚拟化技术能够为企业实现服务器整合、降低总体拥有成本等众多优势。学员学完该课程(实施和管理微软服务器虚拟化),可参加70-659的考试,考试通过后,可获得两张MCTS证书:Windows Server 2008 R2,Server Virtualization和System Center Virtual Machine Manager,Configuring。拥有该证书,说明您已经掌握了服务器虚拟化的配置、管理及实现。