基于分布式存儲的Windows ODX實現(xiàn)與優(yōu)化
***虛擬化技術(shù)在提高***利用率的同時,也消耗了大量的CPU、內(nèi)存和網(wǎng)絡(luò)帶寬資源,*文從存儲卸載加速的背景出發(fā),探討基于分布式存儲的Windows ODX的實現(xiàn)與優(yōu)化。
1.存儲卸載加速的背景
***虛擬化成為數(shù)據(jù)中心的主流技術(shù),大量運行的虛擬機大大提高了***的利用率,對虛擬機進行批量的創(chuàng)建、**、遷移極大的簡化了IT運維的同時,也帶來了大量的數(shù)據(jù)拷貝*作,進而消耗了***的大量CPU、內(nèi)存和網(wǎng)絡(luò)帶寬資源。
針對于這些問題,VMware提出了VAAI(vStorage API for Array Integration)接口,希望將VMware基*架構(gòu)的某些*能委托給存儲陣列去實現(xiàn),通過減少數(shù)據(jù)對于虛擬機和物理***的資源消耗,從而提升VMware基*架構(gòu)的*能。
同時,Microsoft也在Windows 8或Windows Server 2012中新增了卸載數(shù)據(jù)傳輸(Offloaded Data Transfer ODX)這一*能,期望把數(shù)據(jù)拷貝*能卸載到存儲硬件中,降低虛擬化***的開銷。
*文將和您一起探討Windows ODX的實現(xiàn)與優(yōu)化
通過配合支持卸載的存儲硬件使用,ODX可在不占用 Hyper-V 宿主機 CPU 資源的情況下通過存儲設(shè)備執(zhí)行文件***作,由存儲設(shè)備直接從一個存儲位置讀取數(shù)據(jù),并寫入到另一個位置。卸載數(shù)據(jù)傳輸?shù)脑O(shè)計符合T10 XCOPY Lite規(guī)范,對數(shù)據(jù)拷貝加速進行了端到端的設(shè)計,理論上支持在不同存儲廠商的存儲設(shè)備之間進行數(shù)據(jù)**。
2.ODX實現(xiàn)原理概述
ODX使用基于令牌的機制在智能存儲陣列內(nèi)部或之間**數(shù)據(jù)。待**的源文件和目標(biāo)文件可以在同一個卷上、同一*****的兩個不同卷、或者多個***共享的群集共享卷上。
令牌是一個512字節(jié)的隨機數(shù),令牌代表了一個或多個extent(最多128MB的實際數(shù)據(jù)),一般是一個文件或文件的一部分。令牌由存儲控制器通過哈希算法產(chǎn)生,同時令牌具有一定的生命周期。因此微軟一直認為安全*和兼容*是Windows ODX區(qū)別于 VMware VAAI的一個顯著特征。
由于傳給主機的是代表數(shù)據(jù)的令牌,而不是數(shù)據(jù)*身,因此大大提高了數(shù)據(jù)**的*能。同時由于ODX的命令交互比較多,因此ODX文件**要求文件至少為256KB,太小的文件所產(chǎn)生的開銷會使得XCOPY*作變得沒有任何意義。
用戶通過Windows Explorer或命令行執(zhí)行文件**/移動。
Windows 8或Windows Server 2012發(fā)送一個讀請求給存儲控制器要求執(zhí)行數(shù)據(jù)拷貝(POPULATE_TOKEN命令,包含了源**A/Block len*** pair list)
存儲控制器創(chuàng)建代表數(shù)據(jù)的令牌并發(fā)送回主機(SP創(chuàng)建PIT token)
主機使用令牌發(fā)起寫請求給存儲控制器(WRITE_USING_TOKEN命令,包含一個目標(biāo)**A/Block len*** pair list)
存儲控制器根據(jù)令牌**,驗證令牌的有效*和源數(shù)據(jù)位置,并把數(shù)據(jù)傳輸數(shù)據(jù)到目標(biāo)位置。
最后存儲控制器把ODX**的結(jié)果發(fā)送給主機(主機使用RECEIVE_ROD_TOKEN_INFORMATION命令查詢結(jié)果)
為了實現(xiàn)ODX*能,ODX增加了如下幾個S**I命令:
POPULATE_TOKEN命令,發(fā)送卸載讀請求給存儲控制器,請求針對虛擬磁盤LUN A的某段數(shù)據(jù)產(chǎn)生一個數(shù)據(jù)令牌。
WRITE_USING_TOKEN命令,攜帶數(shù)據(jù)令牌發(fā)送卸載寫請求給存儲控制器,請求把該令牌所代表的數(shù)據(jù)**到指定位置。
RECEIVE_ROD_TOKEN_INFORMATION 命令,發(fā)送卸載查詢請求給存儲控制器,查詢卸載讀/寫的結(jié)果。
3.ODX在分布式存儲的優(yōu)化
3.1令牌的**和同步
對于分布式存儲集群,通常會提供多個存儲控制器來實現(xiàn)IO的并發(fā)訪問以及IO路徑的高可用。同時Windows***通過iS**I MPIO和分布式存儲連接以后,ODX可能會對不同的存儲控制器分別下發(fā)POPULATE_TOKEN命令和WRITE_USING_TOKEN命令。這就要求某一個存儲控制器產(chǎn)生的數(shù)據(jù)令牌需要和其他存儲控制進行實時同步。同時令牌具有一定的生命周期, 因此存儲控制器需要保證數(shù)據(jù)令牌的唯一*,并且定期清理已經(jīng)過期的數(shù)據(jù)令牌。
3.2 ODX相關(guān)參數(shù)調(diào)優(yōu)
ODX進行數(shù)據(jù)**時,默認傳輸?shù)囊粋€數(shù)據(jù)片段大小為64MB,支持傳輸?shù)淖畲髷?shù)據(jù)片段為256MB。由于不同的分布式存儲環(huán)境,所配置的HDD、SSD磁盤數(shù)量各不相同,因此不同環(huán)境最有的數(shù)據(jù)傳輸切片大小也各不一樣。ODX支持通過存儲的VPD描述去建議最優(yōu)的數(shù)據(jù)切片大小。因此可以結(jié)合分布式存儲的配置情況,選擇最優(yōu)的數(shù)據(jù)傳輸片段大小。
考慮到分布式存儲在產(chǎn)生數(shù)據(jù)令牌時,需要在各存儲控制器之間通過網(wǎng)絡(luò)進行實時同步,時延開銷比較大,因此可以通過配置參數(shù),最大化數(shù)據(jù)令牌所代表的數(shù)據(jù)塊大小,減少POPULATE_TOKEN命令的發(fā)送次數(shù)。
3.3 ODX相關(guān)的流量控制以及一些異常處理
ODX進行數(shù)據(jù)**時,通常都是大數(shù)據(jù)塊的讀寫,這樣會對存儲***的硬盤帶來很大的壓力,進而影響對其他IO業(yè)務(wù)的處理。因此有必要在同時存在其他業(yè)務(wù)IO時,對ODX相關(guān)的IO做一定的流量限制。
在某些異常場景,WRITE_USING_TOKEN命令的目標(biāo)位置和源文件位置會發(fā)生重疊,這樣有可能會導(dǎo)致數(shù)據(jù)處理不正確,因此在執(zhí)行寫*作前需要增加一些位置校驗。
4.ODX的優(yōu)化效果
杉巖數(shù)據(jù)的SandStone UPS作為企業(yè)級軟件定義存儲產(chǎn)品,對Windows ODX實現(xiàn)了完美的支持,借助ODX,SandStone UPS大大節(jié)省***的網(wǎng)絡(luò)帶寬和CPU資源。
從任務(wù)**器可以看到,在做數(shù)據(jù)**時,網(wǎng)絡(luò)帶寬和內(nèi)存、CPU消耗都不大,特*是網(wǎng)絡(luò)帶寬只占用了200K左右,但是數(shù)據(jù)**顯示的速度平均有200MB,遠超過1G網(wǎng)絡(luò)帶寬的限制。(說明一下:200k是Windows和存儲控制器直接帶寬,Windows只是發(fā)送控制命令,實際的數(shù)據(jù)傳輸是在存儲網(wǎng)絡(luò)間進行的。)
以上,就是我們在Windows ODX上的具體優(yōu)化實踐,*著開放、務(wù)實的技術(shù)理念,未來,將積極吸取行業(yè)的優(yōu)秀經(jīng)驗和技術(shù)產(chǎn)品,從而為用戶打造一套更加完善的需求解決方案。