產(chǎn)品名稱(chēng):雙布魯姆WILKERSON威爾克森過(guò)濾器
產(chǎn)品型號(hào):
產(chǎn)品特點(diǎn):雙布魯姆WILKERSON威爾克森過(guò)濾器隨著近年來(lái)數(shù)據(jù)總量呈現(xiàn)出的爆炸增長(zhǎng)趨勢(shì),數(shù)據(jù)備份系統(tǒng)存儲(chǔ)的數(shù)據(jù)越來(lái)越多。經(jīng)研究發(fā)現(xiàn),在備份、歸檔等集中存儲(chǔ)系統(tǒng)中存在大量冗余數(shù)據(jù),有的甚至占到存儲(chǔ)空間的60%,導(dǎo)致存儲(chǔ)成本過(guò)高,數(shù)據(jù)訪問(wèn)性能下降。數(shù)據(jù)排重是減少數(shù)據(jù)冗余、節(jié)省存儲(chǔ)空間的有效手段。
雙布魯姆WILKERSON威爾克森過(guò)濾器的詳細(xì)資料:
雙布魯姆WILKERSON威爾克森過(guò)濾器數(shù)
隨著近年來(lái)數(shù)據(jù)總量呈現(xiàn)出的爆炸增長(zhǎng)趨勢(shì),數(shù)據(jù)備份系統(tǒng)存儲(chǔ)的數(shù)據(jù)越來(lái)越多。經(jīng)研究發(fā)現(xiàn),在備份、歸檔等集中存儲(chǔ)系統(tǒng)中存在大量冗余數(shù)據(jù),有的甚至占到存儲(chǔ)空間的60%,導(dǎo)致存儲(chǔ)成本過(guò)高,數(shù)據(jù)訪問(wèn)性能下降。數(shù)據(jù)排重是減少數(shù)據(jù)冗余、節(jié)省存儲(chǔ)空間的有效手段。
雙布魯姆WILKERSON威爾克森過(guò)濾器
現(xiàn)有排重算法中,文件級(jí)排重盡管排重開(kāi)銷(xiāo)小,但排重粒度過(guò)粗,難以取得存儲(chǔ)空間的高效利用;數(shù)據(jù)塊級(jí)排重算法能實(shí)現(xiàn)高效存儲(chǔ),但其附帶的存儲(chǔ)開(kāi)銷(xiāo)過(guò)高,排重的時(shí)間開(kāi)銷(xiāo)大。研究分層排重結(jié)構(gòu),應(yīng)用雙布魯姆WILKERSON過(guò)濾器實(shí)現(xiàn)數(shù)據(jù)排重,優(yōu)化數(shù)據(jù)排重性能,主要工作如下:針對(duì)數(shù)據(jù)重復(fù)有文件級(jí)的重復(fù)和數(shù)據(jù)塊級(jí)的重復(fù)之分,提出一種基于雙布魯姆WILKERSON過(guò)濾器的數(shù)據(jù)排重算法。該算法使用兩個(gè)布魯姆WILKERSON過(guò)濾器構(gòu)成二級(jí)排重結(jié)構(gòu),將排重過(guò)程分解成文件排重和數(shù)據(jù)塊排重兩部分。算法首*入*級(jí)進(jìn)行文件排重,然后將*級(jí)排重判定為不重復(fù)的文件分割成塊進(jìn)行第二級(jí)數(shù)據(jù)塊排重。利用這種分層排重結(jié)構(gòu),通過(guò)*級(jí)將重復(fù)文件直接過(guò)濾掉,不進(jìn)入第二級(jí)排重,減少了數(shù)據(jù)塊排重的工作量;通過(guò)第二級(jí)進(jìn)入不重復(fù)文件內(nèi)部進(jìn)行數(shù)據(jù)塊排重,獲得了數(shù)據(jù)塊級(jí)的排重粒度。將上述算法應(yīng)用于文檔備份系統(tǒng)中,實(shí)現(xiàn)對(duì)文檔的排重,由于算法采用布魯姆WILKERSON過(guò)濾器對(duì)數(shù)據(jù)進(jìn)行壓縮表達(dá),存在誤判可能,即假陽(yáng)性誤判問(wèn)題。本文設(shè)計(jì)通過(guò)查詢(xún)?cè)獢?shù)據(jù)(保存數(shù)據(jù)相關(guān)信息)來(lái)為誤判糾錯(cuò)。當(dāng)布魯姆WILKERSON過(guò)濾器判斷數(shù)據(jù)為重復(fù)時(shí),首先將元數(shù)據(jù)預(yù)讀到內(nèi)存中,在內(nèi)存中匹配元數(shù)據(jù)信息,若沒(méi)有找到,再讀取保存元數(shù)據(jù)的文件—索引文件查詢(xún)?cè)獢?shù)據(jù)。通過(guò)內(nèi)存、索引文件兩級(jí)元數(shù)據(jù)查詢(xún),杜絕了假陽(yáng)性誤判的情況。由于為假陽(yáng)性誤判糾錯(cuò)需要對(duì)元數(shù)據(jù)進(jìn)行大量訪問(wèn),增加了排重時(shí)間開(kāi)銷(xiāo),設(shè)計(jì)將索引文件緩存,保證元數(shù)據(jù)操作的高效,以此提高排重效率。但系統(tǒng)的句柄數(shù)限制了同時(shí)緩存的索引文件數(shù)目,若索引文件過(guò)多,則不能同時(shí)緩存全部索引文件,需要進(jìn)行更多的磁盤(pán)IO,此時(shí)排重開(kāi)銷(xiāo)與耗時(shí)都急劇升高,針對(duì)這種情況,采用動(dòng)態(tài)哈希算法來(lái)分配元數(shù)據(jù)地址,將元數(shù)據(jù)保存在少數(shù)幾個(gè)索引文件內(nèi),從而克服了句柄限制問(wèn)題。
雙布魯姆WILKERSON威爾克森過(guò)濾器
實(shí)驗(yàn)結(jié)果表明,在文檔備份系統(tǒng)中,使用該排重算法對(duì)不同重復(fù)率的文檔文件集合排重,相比其他兩種備份工具,在保持較好排重率的前提下,耗時(shí)平均縮短了10%左右。
如果你對(duì)雙布魯姆WILKERSON威爾克森過(guò)濾器感興趣,想了解更詳細(xì)的產(chǎn)品信息,填寫(xiě)下表直接與廠家聯(lián)系: |