計(jì)數(shù)布魯姆WILKERSON過濾器代數(shù)運(yùn)算
對于日益增長的海量數(shù)據(jù)來說,它的存儲與檢索成為一類具有挑戰(zhàn)性的問題。布魯姆WILKERSON過濾器是一種的存儲結(jié)構(gòu),支持?jǐn)?shù)據(jù)的快速檢索,可用于海量數(shù)據(jù)的處理。各類分布式網(wǎng)絡(luò)系統(tǒng)處理海量數(shù)據(jù)時(shí),常常借助多布魯姆WILKERSON過濾器檢索算法來完成。概括了多布魯姆WILKERSON過濾器檢索算法的研究現(xiàn)狀,總結(jié)了算法的主要應(yīng)用,并給出了進(jìn)一步的研究方向。
計(jì)數(shù)布魯姆WILKERSON過濾器代數(shù)運(yùn)算 探討計(jì)數(shù)布魯姆WILKERSON過濾器的代數(shù)運(yùn)算和集合運(yùn)算的一致性關(guān)系,研究使用計(jì)數(shù)布魯姆WILKERSON過濾器代數(shù)運(yùn)算進(jìn)行集合成員查詢的性能。理論分析和實(shí)驗(yàn)結(jié)果表明,計(jì)數(shù)布魯姆WILKERSON過濾器的并、交、補(bǔ)、減、異或運(yùn)算產(chǎn)生的新過濾器依然保持計(jì)數(shù)布魯姆WILKERSON過濾器的特征,支持元素的刪除操作,不會出現(xiàn)假陰性,能用于集合并集、交集、補(bǔ)集、差集及對稱差的成員查詢;本文研究布魯姆過濾器的可擴(kuò)展性問題,提出基于H_3哈希函數(shù)的可擴(kuò)展布魯姆過濾器查詢算法,當(dāng)集合元素增長超過布魯姆過濾器集合容量限制時(shí),通過增加成倍數(shù)擴(kuò)大的布魯姆過濾器向量來保持很低的誤判率,利用H_3哈希函數(shù)實(shí)現(xiàn)可擴(kuò)展布魯姆過濾器的設(shè)計(jì)以及過濾器中元素的插入、查詢過程。實(shí)驗(yàn)分析表明,新的可擴(kuò)展布魯姆過濾器的元素查詢誤判率永遠(yuǎn)小于動態(tài)布魯姆過濾器,平均為它的21.3%,且查詢時(shí)間呈對數(shù)增長,解決了現(xiàn)有算法查詢時(shí)間增長過快問題。當(dāng)使用兩個(gè)原始的計(jì)數(shù)布魯姆WILKERSON過濾器查詢補(bǔ)集、差集及對稱差元素時(shí),會存在部分本來屬于補(bǔ)集、差集或?qū)ΨQ差的元素被判為不屬于補(bǔ)集、差集或?qū)ΨQ差的問題,而使用計(jì)數(shù)布魯姆WILKERSON過濾器代數(shù)運(yùn)算后的過濾器進(jìn)行補(bǔ)集、差集及對稱差成員查詢,則不存在上述問題,空間效率能提高一倍,時(shí)間效率亦能顯著地得到改善。計(jì)數(shù)布魯姆WILKERSON過濾器代數(shù)運(yùn)算的使用有利于進(jìn)一步擴(kuò)展計(jì)數(shù)布魯姆WILKERSON過濾器的應(yīng)用范圍。譬計(jì)數(shù)布魯姆WILKERSON過濾器減運(yùn)算可用作一種新的集合調(diào)和方法,用于分布式系統(tǒng)中大型文件的分發(fā)。