來源:中國電商物流網 發布時間:2020-5-5 8:59
在不確定性中尋找確定性。
01抵抗不確定性的“免疫力”
這次疫情“黑天鵝”,讓許多企業用戶開始意識到,系統的數字化能力是抵御包括疫情在內的諸多不確定性風險以及未來就緒的最佳途徑。
通過將數字化轉化為生產方式,無縫融入商業模式和全場景體驗,構建線上線下的一體化鏈條,讓企業真正獲得抵抗不確定性的“免疫力”;而這樣的前提在于:
第一,在如此快速變化的時代,業務和需求都在快速迭代,用戶的應用也正在更多的向云原生和微服務架構轉型,這要求基礎設施能夠快速部署以及靈活可擴展;
第二,當下的經濟環境,需要在技術先進性和經濟合理性中找到平衡支點;
第三,如果說企業的“免疫力”來自于系統的數字化能力打造,那么穩定、持續的數字化能力輸出大概率來自于系統的健壯性。核心的數據基礎設施如果同樣擁有了“免疫力”,無疑能夠更好的抵御各種故障對系統的沖擊,保證上層業務的正常運行。
02XSKY SDS V4.2正式發布
日前,為了幫助企業用戶更好的應對當下不確定性的大環境,增強抵抗各種不確定性的“免疫力”,XSKY正式迭代發布了V4.2版本,帶來了一系列新功能以及增強的特性,讓SDS更加可靠,易用和可運維。
本次版本中,帶來了數據校驗增強,硬盤亞健康處理,網絡亞健康處理,閑時自動重平衡四大重磅功能,從數據端到端安全、硬件組件的亞健康管理和容量管理三大領域進行“免疫力”提升,同時還帶來了場景化進一步增強等九項新增與優化功能;并全新發布XSKY S3 Console對象接口產品,幫助客戶進一步降低使用對象產品的門檻。
基于上述發布,客戶在一系列業務場景中實現了性能倍增,以及面對多樣化的工作負載,進一步簡化運維,增強抵御系統故障的能力:
1、VMware場景,vSphere中vMotion、克隆操作的復制性能提升了1.5倍;
2、容器場景,Pod創建速度更快,以100個Pod創建速度為例,從30+分鐘優化到4分鐘,效能提升7.5倍;
3、相同硬件配置情況下,整個系統支持對象數比上一個版本提升了1倍。
以上是場景中顯著提升的部分,同時還有整體系統性能穩定性的提升。
03可靠性增強
1、高強度實時數據校驗
數據靜默錯誤是現代存儲系統最難處理的故障之一。現在機房周邊環境復雜,特別是SSD的大量使用,使得外部的強干擾導致本來輸入的0/1的高低電平發生改變而發生靜默錯誤的幾率越來越大。
XSKY過去版本在多副本(EC)數據保護已經積累了大量的數據安全性保證措施,同時支持定期后臺數據掃描來檢查不一致。
在V4.2版本中,我們又增加了一個強有力的數據保護措施,通過在IO路徑加入了實時數據校驗機制來確保數據讀寫的即時安全。該措施使得在寫IO的時候,底層存儲引擎會計算寫入數據的CRC值并記錄到對應數據的元數據中;
讀IO的時候,會讀出數據,同時計算CRC值然后與元數據中記錄的CRC比對,如果不一致,告警,使用其他副本數據來恢復,恢復后同步會打印告警消息。
實時IO流程的數據校驗使得分布式系統整體容錯性大大增強,同時解決了數據一致性的即時性問題,避免任何情況下應用從存儲系統中讀取可能的不一致數據。
實時數據校驗可以按照卷的粒度開啟或者關閉,內部實驗室性能綜合測試評估對系統的性能峰值影響少于10%。建議關鍵業務開啟實時數據校驗功能,避免靜默錯誤的發生。
2、硬盤亞健康檢測
硬盤亞健康引起的系統性能抖動是分布式存儲極難處理的現象之一,自動檢測集群中的慢盤和壞盤,告警并自動隔離,是存儲系統在健壯性上的必要支撐。
在新版本中,XSKY進一步完善了檢測方法和處理機制。壞盤判斷相對簡單,會通過檢測SCSI/NVME的IO指令錯誤碼, 以及相關設備的介質事件發生(如拔盤)等進行壞盤決策。
而判斷慢盤是最需要經驗的。XSKY根據現網大量的已部署集群的工程經驗,將算法應用到所有的存儲介質守護進程(OSD)中進行實時分析,其采用三個維度來判斷慢盤:
? 縱向時延比較:本OSD的性能延遲超過閾值的次數;
? 橫向時延比較:與存儲池內其他OSD平均延遲進行比較,通過標準差計算相應偏離;
? IO粒度:當一個IO在本OSD對應介質中處理超過一定時間的 。
這種立體的判斷方法,使得系統識別慢盤的準確度和速度都大幅提高。
新版本也進一步完善了慢盤的處理流程,采用告警-隔離-重試,逐步遞進:
? 告警:上述檢測機制發現的所有磁盤亞健康情況都會發送對應告警到界面,提示用戶檢查;
? 隔離:當且僅當出現IO粒度慢盤和壞盤時,系統會指定守護進程(OSD)自動退出;
? 重試:當且僅當出現IO粒度慢盤和壞盤情況OSD主動退出時,系統會根據對應的錯誤情況來連續嘗試拉起一定次數來,如繼續異常則不再拉起該OSD。重試過程中由于OSD已經隔離退出,因此不會影響在線IO。
3、網絡亞健康檢測
分布式系統,網絡的穩定性對系統的性能影響非常大。XSKY SDS新版本可以自動識別集群網絡故障,發送告警信息,協助管理員快速排查網絡問題。
實現原理如下:
? 系統所有守護進程通過分布式網絡延遲檢測算法,實時判斷不同節點的網絡延遲和副本之間數據復制的網絡延遲來獲得當前系統內所有節點的實時網絡情況;
? 計算出系統所有節點中1min, 5min, 15min內的網絡延遲的平均值作為評判基線;
? 遍歷系統所有節點的1min,5min,15min的網絡延遲數據,通過標準差計算分析偏離指數,當指數超過閾值時則認為網絡有問題。
4、存儲池容量分布閑時自動重平衡
分布式存儲,在進行擴容或者縮容的時候,會觸發存儲池進行重平衡。由于算法的拓撲適應性或者人為干預,也有小概率情況下出現算法自動計算的存儲池容量不平衡的情況出現。
以前出現這種情況,需要運維人員進行手動的容量再平衡。在新版本中,加入了智能檢測這種情況并且智能啟動重平衡的全自動化處理流程,避免極端情況下由于某個OSD寫滿(超過閾值)而引起業務不能寫入的現象。
分布式存儲系統利用閑時(晚上12點-2點,可配置),對于容量不均衡的存儲池(容量差異大于1%)進行重平衡。自動重平衡會以最低恢復帶寬進行,也可以關閉,避免對峰值業務造成影響。
04場景化增強
1、OpenStack場景優化
很多用戶選擇XSKY SDS代替OpenStack自帶的開源軟件定義存儲。為了解決資源消耗問題,XSKY自研了具有專利技術的 XDC模塊,提供LibRBD proxy代理,通過代理劫持客戶端訪問RBD的命令,將無序的訪問命令統一管理起來,根據系統資源使用情況按需打開RBD通道,從而達到資源的有效管理。
在快照選擇上,XSKY提供ROW(Redirect on Write)技術。傳統存儲COW快照后在寫性能方面的效率要比ROW低很多,但是在讀性能ROW的效率要低于COW快照。而軟件定義存儲的整體性能可由多節點負擔,且XSKY產品在讀性能方面做了大量優化,因此,在SDS產品中采用ROW快照,可有效規避傳統存儲創建快照后存在的性能問題。
但上述改動使得OpenStack支持多套存儲和跨池克隆等場景處理起來比較復雜。在新版本里,XSKY通過對納管開源Ceph,在線數據遷移和跨池克隆等功能模塊持續進行優化,性能和穩定性都得到較大的提升。
2、VMware場景優化
XSKY內部統計,大約有1/3的存儲應用場景都是VMware場景。在新版本中,XSKY持續對VAAI接口進行優化。本版本的優化主要有兩點:
? UNMAP的支持粒度從4M改為1M。因為ESXi應用大部分都是1M粒度,所以對于ESXi的UNMAP操作可以顯著增加容量釋放空間;
? XCOPY直接從最底層OSD到OSD進行數據復制,性能提升1.5倍。對于虛機克隆和遷移操作顯著減少了時間。?
3、容器場景優化
新版本針對CSI的API接口持續進行優化,提升批量創建Pod的速度,提升了單集群支持Pod的數量,并且把通過API創建的資源和通過系統UI創建的資源進行隔離,提升了安全性。
XSKY的CSI很早就支持RAW卷、卷擴容、快照和克隆等增值特性。這次新版本加入了對用戶名和密碼進行加密保存的支持,并且支持容器的MPIO特性,在三層網絡下也可以部署延展集群,實現容器的同城雙活。
4、S3對象存儲策略優化
對象存儲在企業市場使用,和公有云場景不同,需要更多的精細化管理控制。在這次發布的新版本里,IT管理員可以根據業務需要,對S3用戶通過API創建的存儲桶可以靈活指定存儲策略。
如上圖所示,如果管理員允許使用Location參數,S3 用戶調用 S3 Put Bucket API 創建存儲桶時,可以使用攜帶 LocationConstraint 參數來指定要使用的存儲策略。
但是如果管理員想控制某些用戶的存儲策略,則可以通過設置禁止使用Location參數,則S3用戶創建桶時只能選擇管理員設置好的存儲策略(可以指定某個策略,也可以使用缺省策略,甚至可以在不同策略里輪詢)。
05可運維增強
1、集成巡檢工具
從V4.2版本開始,XSKY SDS管理節點內置了巡檢工具,只需要啟動運行,就可以自動完成巡檢并提交巡檢報告。在V4.2版本以前的集群,可以從官網下載最新的工具進行集群巡檢。
獲得巡檢結果后,通過官網上傳巡檢結果文件,后臺XSKY售后支持系統會利用內部知識庫以及智能分析系統來進行故障或隱患的發現,生成巡檢報告,并提供給用戶。
2、文件訪問日志
支持針對文件的操作,進行日志記錄,滿足審計等客戶需求,方便操作追溯。
3、告警記錄優化
告警記錄優化,增加了告警自動恢復機制,錯誤碼,告警原因,詳情和處理意見,使得用戶可以自行針對處理建議進行修復,也增強了系統的透明性,使得運維更便捷。
4、優化歸并文件空洞掃描
可按照策略進行空間掃描進行二次歸并,及時進行空間回收,提高對象存儲空間使用率。
5、存儲桶對象數規格提升和告警優化
新版本對索引池的性能進行持續優化,相同硬件配置的情況下,整個系統支持對象數比上一個版本提升了1倍。并且可以在界面看到單桶已經存儲文件數量,超出存儲文件數閾值限制寫入,保證已寫入桶數據的預期性能。
06推出全新XSKY S3 Console軟件
對象存儲通過S3 API來使用,這種方式對于很多企業用戶來說不太直觀。他們希望有一個工具,可以類似公有云一樣,實現文件的上傳和下載等基本的操作。
XSKY S3 Console是一款面向XSKY S3用戶的便捷管理對象存儲服務的圖形化Web應用程序,主要提供了豐富的桶、文件夾及文件等級別的管理功能。幫助使用XSKY對象產品的客戶降低使用門檻。
本次新版本中,XSKY的對象存儲內置了S3 Console功能。用戶只需要安裝好對象存儲,打開瀏覽器就可以直接基于S3 Console來使用對象存儲。
通過XSKY S3 Console,對象存儲就不僅僅只適合開發人員使用,普通用戶也可以很方便的使用對象存儲。
07小結
XSKY SDS V4.2的發布,使得XSKY SDS的健壯性、性能、易用性和可運維能力都有了大幅的提升,保證上層業務穩定運行,助力客戶利用SDS的優勢更加敏捷應對疫情帶來的影響。XSKY S3 Console,則拉近了對象存儲和用戶的距離,可以加快對象存儲在企業中的普及。
特別提醒:本網內容轉載自其他媒體,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。