什么是布隆過濾器？你學(xué)會了嗎？

前言

如果要判斷一個(gè)元素是否在集合中，一般的思路是保存集合中的所有元素，然后通過比較來確定。鏈表、樹、哈希表（也叫哈希表、哈希表）等數(shù)據(jù)結(jié)構(gòu)都是這種方式，存儲位置要么是磁盤，要么是內(nèi)存。很多時(shí)候，要么時(shí)間換空間，要么空間換時(shí)間。

10年的南部網(wǎng)站建設(shè)經(jīng)驗(yàn)，針對設(shè)計(jì)、前端、開發(fā)、售后、文案、推廣等六對一服務(wù)，響應(yīng)快，48小時(shí)及時(shí)工作處理。網(wǎng)絡(luò)營銷推廣的優(yōu)勢是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同，自動(dòng)調(diào)整南部建站的顯示方式，使網(wǎng)站能夠適用不同顯示終端，在瀏覽器中調(diào)整網(wǎng)站的寬度，無論在任何一種瀏覽器上瀏覽網(wǎng)站，都能展現(xiàn)優(yōu)雅布局與設(shè)計(jì)，從而大程度地提升瀏覽體驗(yàn)。創(chuàng)新互聯(lián)建站從事“南部網(wǎng)站設(shè)計(jì)”,“南部網(wǎng)站推廣”以來，每個(gè)客戶項(xiàng)目都認(rèn)真落實(shí)執(zhí)行。

在對響應(yīng)時(shí)間要求比較嚴(yán)格的情況下，如果我們有里面，那么隨著集合中元素?cái)?shù)量的增加，我們需要的存儲空間越來越大，檢索時(shí)間也越來越長，導(dǎo)致內(nèi)存過多開銷和時(shí)間效率變低。

這時(shí)候需要考慮的問題是，在數(shù)據(jù)量比較大的情況下，既能滿足時(shí)間要求，又能滿足空間要求，所以我們需要一種時(shí)間和空間消耗都比較小的數(shù)據(jù)結(jié)構(gòu)和算法。布隆過濾器是一種解決方案。

什么是布隆過濾器？

Bloom Filter, 布隆過濾器由 Bloom于 1970 年提出。它實(shí)際上是一個(gè)長二進(jìn)制向量和一系列隨機(jī)映射函數(shù), 布隆過濾器可用于檢索元素是否在集合中。其優(yōu)點(diǎn)是空間效率和查詢時(shí)間遠(yuǎn)超一般算法，缺點(diǎn)是存在一定的誤識別率和刪除難度。根據(jù)它的特性，應(yīng)用場景有如下：

爬蟲過濾。
郵箱垃圾郵件過濾。
黑名單過濾。
大數(shù)據(jù)去重。
防止緩存穿透。

布隆過濾器原理

布隆過濾器的原理是當(dāng)一個(gè)元素加入到集合中時(shí)，通過K個(gè)哈希函數(shù)將該元素映射到一個(gè)位數(shù)組中的K個(gè)點(diǎn)，并將它們置為1。檢索時(shí)，我們只需要看這些點(diǎn)是否都為1，就可以（大概）知道它是否存在于集合中。如果這些點(diǎn)中的任何一個(gè)有0，則檢查的元素一定不存在。如果它們都是1，則被選中的元素很可能在那里。

Bloom Filter與單一哈希函數(shù)Bit-Map的區(qū)別在于，Bloom Filter使用k個(gè)哈希函數(shù)，每個(gè)字符串對應(yīng)k個(gè)bits，從而降低碰撞概率。

由于Bloom filter只存儲0和1而不存儲具體值，所以在一些機(jī)密場合具有先天優(yōu)勢。位圖的每一位都是一個(gè)位，所以通過位圖有10億個(gè)位置，位圖的大小為0.12G，插入和查詢的時(shí)間復(fù)雜度為O(k),k是哈希函數(shù)的個(gè)數(shù)。

布隆過濾器的問題

布隆過濾器之所以能夠在時(shí)間和空間上取得比較高的效率，是因?yàn)樗鼱奚伺袛嗟臏?zhǔn)確性和刪除的便利性。

判斷錯(cuò)誤

有可能要找的元素不在容器中，但是散列后得到的k個(gè)位置都是1。如果布隆過濾器中存儲了黑名單，則可以通過創(chuàng)建白名單來存儲可能被誤判的元素。

對于這個(gè)問題，可以通過增加位圖數(shù)組的大?。ㄎ粓D數(shù)組越大，占用的內(nèi)存越大）和減少哈希沖突來解決。但缺點(diǎn)是會增加占用的內(nèi)存空間。

另一種解決方案是增加散列函數(shù)的數(shù)量并減少散列沖突。如果同一個(gè)鍵值等于一個(gè)函數(shù)，經(jīng)過兩個(gè)或多個(gè)哈希函數(shù)得到相等結(jié)果的概率自然會降低。然而，這會導(dǎo)致計(jì)算效率的降低，因?yàn)闀r(shí)間復(fù)雜度退化為O(hash times)。

難以去除

放置在容器中的元素映射到位數(shù)組的 k 個(gè)位置中的 1。刪除的時(shí)候不能簡單的直接設(shè)置為0，這樣可能會影響其他元素的判斷。你可以使用??Counting Bloom Filter??來解決這個(gè)問題。

Java中如何使用布隆過濾器

google的guava就提供了這樣的API.


    com.google.guava
    guava
    22.0

編寫測試代碼

import com.google.common.base.Charsets;
import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;
 
public class GuavaBloomFilter {
    public static void main(String[] args) {
        int total = 1000000;
        // default false positive ratefpp0.03
        // fpp:There will always be a false positive rate in a Bloom filter
        // Because hash collisions are impossible to avoid 100%.
        // Bloom filter calls this misjudgment rate false positive probability，abbreviated as fpp
        BloomFilter bf = BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8), total);
        // Initialize the total bar data into the filter
        for (int i = 0; i < total; i++) {
            bf.put("" + i);
        }
        // Determine whether the value exists in the filter
        int count = 0;
        for (int i = 0; i < total + 10000; i++) {
            if (bf.mightContain("" + i)) {
                count++;
            }
        }
        System.out.println("Matched quantity " + count);
 
        // Specified misjudgment rate: 1/10,000 to improve matching accuracy
        BloomFilter bfWithFpp = BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8), total, 0.0001);
        for (int i = 0; i < total; i++) {
            bfWithFpp.put("" + i);
        }
        int countFpp = 0;
        for (int i = 0; i < total + 10000; i++) {
            if (bfWithFpp.mightContain("" + i)) {
                countFpp++;
            }
        }
        //The smaller the value of the false positive rate fpp
        // the higher the matching accuracy.
        // When the value of the false positive rate fpp is reduced
        // the storage space required is also larger
        // Therefore, in actual use, 
        // a trade-off needs to be made between the false positive rate and the storage space.
        System.out.println("The specified false positive rate has matched the number " + countFpp);// (1000001 - 1000000)/(1000000 + 10000) * 100 ≈ 0.0001
    }
}

當(dāng)前文章：什么是布隆過濾器？你學(xué)會了嗎？
新聞來源：http://uogjgqi.cn/article/ccegods.html

掃二維碼與項(xiàng)目經(jīng)理溝通

我們在微信上24小時(shí)期待你的聲音

解答本文疑問/技術(shù)咨詢/運(yùn)營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流

av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

什么是布隆過濾器？你學(xué)會了嗎？

前言

什么是布隆過濾器？

布隆過濾器原理

布隆過濾器的問題

Java中如何使用布隆過濾器

掃二維碼與項(xiàng)目經(jīng)理溝通

其他資訊

行業(yè)動(dòng)態(tài)

企業(yè)網(wǎng)站建設(shè)的重要性！

服務(wù)項(xiàng)目

網(wǎng)站建設(shè)

移動(dòng)端/APP

微信/小程序

技術(shù)支持

其它服務(wù)

更多服務(wù)項(xiàng)目

聯(lián)系吧在百度地圖上找到我們

電話：13518219792

av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

什么是布隆過濾器？你學(xué)會了嗎？

前言

什么是布隆過濾器？

布隆過濾器原理

布隆過濾器的問題

Java中如何使用布隆過濾器

掃二維碼與項(xiàng)目經(jīng)理溝通

其他資訊

行業(yè)動(dòng)態(tài)

企業(yè)網(wǎng)站建設(shè)的重要性！

服務(wù)項(xiàng)目

網(wǎng)站建設(shè)

移動(dòng)端/APP

微信/小程序

技術(shù)支持

其它服務(wù)

更多服務(wù)項(xiàng)目

聯(lián)系吧 在百度地圖上找到我們

電話：13518219792

什么是布隆過濾器？你學(xué)會了嗎？

什么是布隆過濾器？

企業(yè)網(wǎng)站建設(shè)的重要性！

聯(lián)系吧在百度地圖上找到我們