| 以我們提出的M算法與挖掘關(guān)聯(lián)規(guī)則的權(quán)威算法Apriori算法做一典型的對比分析。 1) 基于的學(xué)術(shù)思想不同:M算法是基于雙庫協(xié)同機制的內(nèi)在認(rèn)知機理研究,具體而論是基于“知識短缺”(利用有向超圖)進行“定向挖掘”以及知識庫的實時維護;而Apriori算法是基于組合論的數(shù)據(jù)庫全局搜索。 2) 基本流程(或基于的結(jié)構(gòu)模型)不同:M算法是一條一條短缺知識的挖掘;而Apriori算法是所有的規(guī)則一并挖掘。 3) 基礎(chǔ)不同:M算法是基于規(guī)則強度,它考慮了主觀和客觀兩個方面;涵蓋了Apriori算法的支持度閾值。 4) 發(fā)現(xiàn)知識的量不同:在M算法中知識庫直接參與挖掘過程,從而能真正發(fā)現(xiàn)新穎的、用戶感興趣的知識,這正是符合了KDD定義;而Apriori算法是把滿足條件的規(guī)則全部挖掘出來;另外,由于M算法中的支持度可以設(shè)置的比較。ㄒ驗樵撍惴ㄖ饕怯梢(guī)則強度來聚焦的),即對短缺知識的刪除是比較謹(jǐn)慎的, 因此M算法部分地克服了Apriori算法的一個缺陷——遺漏重要規(guī)則。 5) M算法可融入KDD中形成新的開放型的結(jié)構(gòu)模型——KDD*,整個算法實現(xiàn)的運算背景是KDD*結(jié)構(gòu);而Apriori算法是原有的KDD系統(tǒng)。 2.3.2 源于DFSSM的Web文本分類的TCDFSSM算法 源于DFSSM的Web文本分類算法TCDFSSM的算法流程如圖12所示。該項內(nèi)容已獲國家發(fā)明專利《一種Web挖掘系統(tǒng)的構(gòu)造方法》(ZL 03104960.5)(見附件 ) 
 圖12  TCDFSSM文本分類算法流程圖 該算法與現(xiàn)有文獻中的文本分類算法有很大差異,我們通過實驗驗證了它的優(yōu)勢。 表2 三類文本分類算法的時間復(fù)雜度比較表 
| 算法名稱 | 訓(xùn)練階段時間復(fù)雜度 | 分類階段時間復(fù)雜度 |  
| TCDFSSM | O(mn) | O(cn) |  
| 樸素貝葉斯 | O(mn) | O(cn) |  
| KNN | 無 | O(cn+mn) |  表3 三類文本分類算法的綜合分類率(F1值)的實驗對比結(jié)果表 
| 算法名稱 | 語料庫1的F1值(%) | 語料庫2的F1值(%) |  
| 封閉 | 開放 | 封閉 | 開放 |  
| TCDFSSM | 95.5 | 93.5 | 93.6 | 91.1 |  
| 樸素貝葉斯 | 91.3 | 90.6 | 89.2 | 88.5 |  
| KNN | 93.7 | 91.7 | 92.3 | 90.8 |  表4為三類分類算法的運行時間分析表。運行時間示意圖如圖13所示。 表4 三種分類算法運行時間分析表 
| 文檔數(shù)(篇) | 100 | 400 | 600 | 1000 |  
| TCDFSSM算法運行時間(s) | 15 | 25 | 50 | 100 |  
| 樸素貝葉斯算法運行時間(s) | 45 | 76 | 135 | 254 |  
| KNN算法運行時間(s) | 90 | 217 | 413 | 927 |   
 圖13 三類分類算法運行時間比較示意圖 上一頁  [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23]  下一頁 |