Apriori演算法例子

2022-05-22 10:06:06 字數 1803 閱讀 6705

1 apriori介紹

apriori演算法使用頻繁項集的先驗知識,使用一種稱作逐層搜尋的迭代方法,k項集用於探索(k+1)項集。首先,通過掃瞄事務(交易)記錄,找出所有的頻繁1項集,該集合記做l1,然後利用l1找頻繁2項集的集合l2,l2找l3,如此下去,直到不能再找到任何頻繁k項集。最後再在所有的頻繁集中找出強規則,即產生使用者感興趣的關聯規則。

其中,apriori演算法具有這樣一條性質:任一頻繁項集的所有非空子集也必須是頻繁的。因為假如p(i)< 最小支援度閾值,當有元素a新增到i中時,結果項集(a∩i)不可能比i出現次數更多。

因此a∩i也不是頻繁的。

2 連線步和剪枝步

在上述的關聯規則挖掘過程的兩個步驟中,第一步往往是總體效能的瓶頸。apriori演算法採用連線步和剪枝步兩種方式來找出所有的頻繁項集。

1) 連線步

為找出lk(所有的頻繁k項集的集合),通過將lk-1(所有的頻繁k-1項集的集合)與自身連線產生候選k項集的集合。候選集合記作ck。設l1和l2是lk-1中的成員。

記li[j]表示li中的第j項。假設apriori演算法對事務或項集中的項按字典次序排序,即對於(k-1)項集li,li[1]2) 剪枝步

ck是lk的超集,也就是說,ck的成員可能是也可能不是頻繁的。通過掃瞄所有的事務(交易),確定ck中每個候選的計數,判斷是否小於最小支援度計數,如果不是,則認為該候選是頻繁的。為了壓縮ck,可以利用apriori性質:

任一頻繁項集的所有非空子集也必須是頻繁的,反之,如果某個候選的非空子集不是頻繁的,那麼該候選肯定不是頻繁的,從而可以將其從ck中刪除。

(tip:為什麼要壓縮ck呢?因為實際情況下事務記錄往往是儲存在外儲存上,比如資料庫或者其他格式的檔案上,在每次計算候選計數時都需要將候選與所有事務進行比對,眾所周知,訪問外存的效率往往都比較低,因此apriori加入了所謂的剪枝步,事先對候選集進行過濾,以減少訪問外存的次數。

)3 apriori演算法例項

上圖為某商場的交易記錄,共有9個事務,利用apriori演算法尋找所有的頻繁項集的過程如下:

詳細介紹下候選3項集的集合c3的產生過程:從連線步,首先c3=,,,,,}(c3是由l2與自身連線產生)。根據apriori性質,頻繁項集的所有子集也必須頻繁的,可以確定有4個候選集,,,}不可能時頻繁的,因為它們存在子集不屬於頻繁集,因此將它們從c3中刪除。

注意,由於apriori演算法使用逐層搜尋技術,給定候選k項集後,只需檢查它們的(k-1)個子集是否頻繁。

3. apriori偽**

4. 由頻繁項集產生關聯規則

confidence(a->b)=p(b|a)=support_count(ab)/support_count(a)

關聯規則產生步驟如下:

1) 對於每個頻繁項集l,產生其所有非空真子集;

2) 對於每個非空真子集s,如果support_count(l)/support_count(s)>=min_conf,則輸出 s->(l-s),其中,min_conf是最小置信度閾值。

例如,在上述例子中,針對頻繁集。可以產生哪些關聯規則?該頻繁集的非空真子集有,,,,和,對應置信度如下:

i1&&i2->i5 confidence=2/4=50%

i1&&i5->i2 confidence=2/2=100%

i2&&i5->i1 confidence=2/2=100%

i1 ->i2&&i5 confidence=2/6=33%

i2 ->i1&&i5 confidence=2/7=29%

i5 ->i1&&i2 confidence=2/2=100%

如果min_conf=70%,則強規則有i1&&i5->i2,i2&&i5->i1,i5 ->i1&&i2。

基於apriori演算法的旅遊線路模型實踐分析

摘要 該文的旅遊線路推薦系統模型,核心推薦模組主要採用的是關聯規則apriori演算法,文中分析了該系統建立的平台,然後通過模擬資料驗證該系統的實踐意義。關鍵詞 旅遊線路 推薦模型 apriori演算法 實踐 中圖分類號 tp311 文獻標識碼 a 文章編號 1009 3044 2013 08 19...

分數乘法例

備課時間 復備時間 課題課時分配專案教知識能力學過程方法目情感態度標價值觀教學重點 教學難點 教學 教具 課件 準備 教主備人 9月2日 主備人王秀花 東關小學所在單位授課教師 9月2日 授課教師張麗霞 解愁獨璧所在單位 小學分數乘法例4 課型新授課1課時 第1課時 上課時間 9月5日 理解乙個數乘...

圖象法例題

1.96年全國卷19t 右圖中abcd為一邊長為l 具有質量的剛性導線框,位於水平面內,bc邊中串接有電阻r,導線的電阻不計.虛線表示一勻強磁場區域的邊界,它與線框的ab邊平行.磁場區域的寬度為2l,磁感應強度為b,方向豎直向下.線框在一垂直於ab邊的水平恆定拉力作用下,沿光滑水平面運動,直到通過磁...