《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 文本聚類中基于密度聚類算法的研究與改進
文本聚類中基于密度聚類算法的研究與改進
來源:微型機與應用2011年第1期
蘇 喻,鄭 誠,封 軍
(安徽大學 計算智能與信號處理教育部重點實驗室,安徽 合肥 230039)
摘要: 文本聚類在很多領域都有廣泛應用,而聚類算法作為文本聚類的核心直接決定了聚類的效果和效率。結合基于劃分的聚類算法和基于密度的聚類算法的優點,提出了基于密度的聚類算法DBCKNN。算法利用了k近鄰和離群度等概念,能夠迅速確定數據集中每類的中心及其類半徑,在保證聚類效果的基礎上提高了聚類效率。
Abstract:
Key words :

摘  要: 文本聚類在很多領域都有廣泛應用,而聚類算法作為文本聚類的核心直接決定了聚類的效果和效率。結合基于劃分的聚類算法和基于密度的聚類算法的優點,提出了基于密度的聚類算法DBCKNN。算法利用了k近鄰離群度等概念,能夠迅速確定數據集中每類的中心及其類半徑,在保證聚類效果的基礎上提高了聚類效率。
關鍵詞: 文本聚類;基于密度;k近鄰;離群度

    文本聚類是指將n篇文章聚集成k類,使得每類內的樣本相似度較大,每類間的樣本相似度較小。文本聚類是一種特殊的數據聚類,有著自身的特點。文本的聚類對象維數較高,決定了聚類算法需要快速收斂,注重效率。國內外也圍繞著文本聚類提出了很多理論和算法,采用的核心聚類算法一般分為兩類,一類是基于劃分的聚類算法,如K-means算法、CLARANS算法等;另一類是基于密度的聚類算法,如KNNCLUST算法、DBSCAN算法等。
1 基于密度聚類算法的研究與改進
1.1現有算法的缺陷

    K-means算法與DBSCAN算法分別作為基于劃分和基于密度的聚類算法的代表,被廣泛應用于文本聚類中。其中K-means算法有實現簡單、時間復雜度低等優點,但算法需要指定種類數,且對初始點依賴性過強,導致聚類效果不理想;DBSCAN算法則有抗噪音性強、聚類準確性高等優點,但算法的主要閾值參數很難確定,且時間復雜度過高,導致聚類效果不理想。
    本文將K-means算法的特性,融入到利用k近鄰概念的基于密度的聚類算法中,提出了DBCKNN算法(Density-Based Clustering using K-Nearest Neighbor),在保證算法準確性的前提下,提高了算法效率。


點的絕對離群度域值為(0,+∞),且值越小,表示點越有可能為類中點,反之,表示點越有可能為噪音點。θ一般取不大于3的正整數,θ越大,不同對象的絕對離群度分布越離散。如圖1(a)中類近似為高斯分布,圖1(b)中z軸為點的絕對離群度值,其θ取1??梢钥闯?,越是類中心的點,其絕對離群度越小,而類邊緣和噪音點都有相對高的絕對離群度值。

    定義6 邊緣點集的k平均近鄰距離的均值

1.3 算法改進
1.3.1 確定類初始中心核心子算法FINDCENTER(ε)

    現有的基于密度的聚類算法中,通常會對全體點進行一次密度值掃描,導致算法復雜性和空間復雜性過高。改進后的算法,利用劃分算法中迭代并更新中心點的思想,可以對定半徑的超球體的移動具有指導性,使得落入超球體內部的點相對更多,即超球體的密度相對更大。
    算法1 FINDCENTER(ε)
    算法輸入:p,ε;算法輸出:p
    (1)以ε為鄰域半徑,求|Neighbors(p,ε)|和absdegree(p,k)。
   
    算法中的λ取值一般為0~1。λ取值越小,半徑變化越小,迭代次數越多,但最終得到類半徑的值越準確。算法中的(α,β)域越寬,聚類粒度越大。算法中的n是不大于k的正整數,一般取值和k相同。n取值越大,則時間復雜度越高,但最終得到類半徑的值越準確。
1.3.3 DBSCAN算法思想
    在數據對象集中找到absdegree(p,k)大于閾值的對象p后,通過反復迭代FINDCENTER(ε)和ADJUSTRADIUS(p,ε),找出初始類Ci,并將Ci排除出數據對象集。重復上述過程,生成初始類集。通過初始類集中各類間的包含關系和評價函數,將噪音點集從初始類集中提取出。最后將噪音點集中的對象按與類集中各類中心點的距離分配給各個類。
2 實驗
    通過實驗對DBCKNN算法的聚類效果和時間效率進行對比和分析。數據集采用兩個著名的數據集Iris和KDDCUP1000。測試數據集信息如表1。這兩個數據集每一類的數據映射到高維空間中近似為正凸型的超球體,符合文本聚類中所提取的文本特征向量的分布情況,其中Iris為3類,KDDCUP1000為5類。實驗用VC6.0編寫,在配置PentiumⅣ 2.4 GB CPU、內存1 GB、80 GB硬盤的計算機上運行。

    本文對聚類效果的評判標準采用參考文獻[4]中提出的聚類質量判定式:S-Dbw(c)=Scat(c)+Dens-bw(c),其中c為類集,Dens-bw(c)評價的是各類間的平均密度,值越小表示類間區分度越好;Scat(c)評價的是類內元素的相似性,值越小表示類越內聚。
    對經典算法K-means、DBSCAN和本文提出的DBCKNN算法在聚類效果和效率上做對比。其中K-means算法的k分別取3和5,并對初始點集做預處理,盡量使初始點集分散且局部密度相對大,DBSCAN算法的minpts、eps取2.5,DBCKNN算法的λ取0.5,k、n取20,θ取2,(α,β)取(0.9,1.1)。
    圖2為預處理后的K-means算法、DBSCAN算法和DBCKNN算法對測試數據集的聚類效果比較。
    從圖2可以看出,雖然已經對初始點集做了預處理,而且對k取了正確的值,但是K-means算法效果仍然不理想。由于DBSCAN算法在數據對象密度的處理上更精確,在數據對象維數較低時,效果略好于DBCKNN算法;而當數據對象維數較高時,高維空間中數據分布稀疏,DBSCAN算法會誤將部分數據對象視為噪音點,從而對聚類效果產生負面影響,而由于DBCKNN算法采用k近鄰距離作為密度探測半徑,對噪音點的處理更加合理,所以在數據對象維數較高時效果要略好于DBSCAN算法。

    圖3為K-means算法、DBSCAN算法和DBCKNN算法對測試數據集的聚類效率。

    從圖3可以看出,K-means算法的效率非常高,在常數次迭代就得到聚類結果,數據規模對聚類效率的影響有限;DBSCAN算法要對所有數據對象的密度進行一次以上的處理,聚類效率依賴于數據規模,導致效率相對低下;本文的DBCKNN算法會根據數據對象局部區域的密度信息來評價這個局部區域所有數據對象的密度信息,所以聚類效率比K-means算法低,但遠高于DBSCAN算法。
    本文結合了基于劃分的聚類算法和基于密度的聚類算法各自的優點,提出了一種能夠快速找到類中心并自適應類半徑的聚類算法DBCKNN算法。DBCKNN算法能在對高維空間下每類形似正凸形超球體的數據對象集進行相對準確的聚類情況下,提高算法效率。另外,本文通過分析及實驗數據對比,從聚類效果和聚類效率兩方面驗證了這種改進方法的正確性和高效性。進一步將這種方法和基于語義的聚類方法相結合,應用于聚類搜索引擎等數據挖掘領域,是下一步研究的重點。
參考文獻
[1] 孫吉貴.聚類算法研究[J].軟件學報,2008,19(1):48-61.
[2] KANUNGO T, MOUNT D M, NETANYAHU N, et al. A local search approximation algorithm for K-means clustering[J].Computational Geometry, 2004(28): 89-112.
[3] 汪中.一種優化初始中心點的K-means算法[J].模式識別與人工智能,2009,22(2):300-304.
[4] HALKIDI M, VAZIRGIANNIS M. Clustering validity assessment: finding the optimal partitioning of a data set[C]. In: Proc.of the 1st IEEE Int’I Conf.on Data Mining.187-194.
[5] 談恒貴.數據挖掘中的聚類算法[J].微型機與應用,2005(1).

此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          雨宫琴音一区二区在线| 久热这里只精品99re8久| 一级成人国产| 亚洲欧美日韩国产中文| 国内精品视频在线观看| 欧美日韩国内| 亚洲欧美制服另类日韩| 亚洲一区二区三区免费观看| 国产精品户外野外| 欧美视频在线一区二区三区| 欧美精品久久一区| 小黄鸭精品aⅴ导航网站入口| 亚洲大胆在线| 亚洲美女91| 欧美日韩高清区| 国产精品国产三级国产aⅴ无密码| 国产精品试看| 国产精品久久久久久福利一牛影视| 国产九区一区在线| 亚洲欧美激情视频| 亚洲一二三区在线观看| 国产欧美日韩精品一区| 国产精品老女人精品视频| 久久久人成影片一区二区三区| 一区二区在线视频播放| 久久久蜜臀国产一区二区| 欧美在线观看网址综合| 久久影视三级福利片| 国产在线视频欧美| 在线视频国产日韩| 欧美国产日韩精品免费观看| 亚洲国产成人91精品| 国产精品色在线| 欧美日韩喷水| 欧美成人精品福利| 欧美高清视频一区二区三区在线观看| 国产精品久久久久7777婷婷| 久久久久国产精品一区| 中文一区二区在线观看| 国产精品成人午夜| 欧美一区二区三区婷婷月色| 狠狠色噜噜狠狠狠狠色吗综合| 国产日韩高清一区二区三区在线| 亚洲视频视频在线| 久久国产精品黑丝| 欧美日韩一区高清| 亚洲国产人成综合网站| 亚洲精品孕妇| 国产区亚洲区欧美区| 性色av一区二区三区红粉影视| 欧美午夜免费影院| 亚洲午夜精品久久久久久app| 久久精品国产91精品亚洲| 国产欧美激情| 亚洲国产精品成人精品| 午夜欧美大尺度福利影院在线看| 欧美日韩一区在线视频| 久久国产日本精品| 亚洲看片网站| 亚洲大胆av| 久久字幕精品一区| 欧美一级日韩一级| 亚洲国产美国国产综合一区二区| 久久国产精品电影| 久久综合伊人77777麻豆| 亚洲国产欧美日韩精品| 伊人婷婷欧美激情| 国产一区二区三区久久久| 黄色成人在线| 亚洲一区二区三区乱码aⅴ蜜桃女| 好看的av在线不卡观看| 久久视频在线视频| 看欧美日韩国产| 亚洲午夜性刺激影院| 欧美日韩在线播放三区四区| 免费在线观看一区二区| 免费成人av在线| 一区二区三区精品| 国产区在线观看成人精品| 99国产精品私拍| 裸体丰满少妇做受久久99精品| 午夜一区二区三区不卡视频| 国产精品盗摄一区二区三区| 亚洲一区亚洲| 国外成人免费视频| 欧美成人一区二区三区在线观看| 国产欧美一区二区三区在线看蜜臀| 亚洲九九精品| 91久久久一线二线三线品牌| 国内精品久久久久久久果冻传媒| 亚洲欧美区自拍先锋| 免费91麻豆精品国产自产在线观看| 香蕉av777xxx色综合一区| 亚洲国产福利在线| 亚洲作爱视频| 亚洲精品国偷自产在线99热| 亚洲午夜免费福利视频| 蜜桃av一区二区在线观看| 国产精品久久久久久亚洲调教| 国产亚洲成av人在线观看导航| 久久国产精品高清| 一区二区三区高清不卡| 国产夜色精品一区二区av| 久久精品国产v日韩v亚洲| 亚洲视频axxx| 亚洲成色www8888| 一区二区三区免费观看| 久久亚洲电影| 日韩性生活视频| 一区二区三区免费在线观看| 亚洲一二三区在线观看| 国产美女在线精品免费观看| 亚洲欧美日韩综合| 欧美日本在线| 亚洲国产精品毛片| 国产主播一区二区三区四区| 欧美亚洲一区二区在线观看| 亚洲一区二区三区免费在线观看| 国产精品蜜臀在线观看| 欧美日韩精品久久久| 99视频热这里只有精品免费| 狠狠色2019综合网| 久久久久久久综合狠狠综合| 欧美日韩一区二区三区在线看| 欧美午夜不卡影院在线观看完整版免费| 国产欧美日韩不卡| 99视频有精品| 欧美一区二区三区在| 欧美日韩国产精品自在自线| 妖精视频成人观看www| 亚洲色在线视频| 欧美激情欧美狂野欧美精品| 久久riav二区三区| 欧美激情精品久久久久久| 亚洲视频在线观看一区| 亚洲免费视频成人| 亚洲福利视频一区| 国产精品99免费看| 亚洲高清中文字幕| 亚洲激情电影在线| 在线亚洲精品福利网址导航| 影音先锋在线一区| 国产亚洲精品久久久久动| 欧美日韩国产一级片| 99re热这里只有精品免费视频| 蜜臀av一级做a爰片久久| 国产精品揄拍500视频| 午夜精品在线| 性18欧美另类| 亚洲精品色婷婷福利天堂| 伊人婷婷久久| 一区二区免费在线视频| 麻豆精品视频在线| 国产美女精品一区二区三区| 欧美体内she精视频在线观看| 欧美激情视频网站| 欧美日韩三区| 欧美国产三区| 亚洲日本在线观看| 欧美性淫爽ww久久久久无| 久久久久国产一区二区| 亚洲欧美日韩一区| 黑人操亚洲美女惩罚| 国产专区综合网| 亚洲综合丁香| 精品99一区二区三区| 国产精品青草久久久久福利99| 亚洲人人精品| 亚洲日本va午夜在线电影| 国产酒店精品激情| 亚洲欧美www| 欧美日韩免费在线视频| 国产欧美一区二区精品忘忧草| 欧美成人午夜77777| 欧美激情aⅴ一区二区三区| 亚洲国产精品激情在线观看| 在线日韩日本国产亚洲| 欧美中文在线观看国产| 亚洲欧美卡通另类91av| 国产一区二区三区免费不卡| 欧美色图首页| 欧美一区二区黄色| 欧美一二三区在线观看| 亚洲午夜国产成人av电影男同| 亚洲欧洲日产国码二区| 这里只有视频精品| 国产精品成人v| 一区二区三区视频在线观看| 欧美成人免费在线| 久久免费视频在线| 国产精品视频自拍| 亚洲欧美激情视频在线观看一区二区三区| 在线亚洲精品福利网址导航| 永久免费毛片在线播放不卡| 欧美色精品在线视频| 国产欧美日韩亚洲一区二区三区| 亚洲欧美日韩综合一区| 麻豆视频一区二区| 欧美精品在线观看| 狠狠操狠狠色综合网| 欧美一区二区三区久久精品茉莉花| 久久久久久久久久久成人| 激情伊人五月天久久综合| 国产一区深夜福利| 亚洲精选大片| 久久大逼视频| 最新69国产成人精品视频免费| 国产精品久久久久久久久免费樱桃| 欧美成人一区二区三区在线观看| 欧美日韩国产页| 久久在线免费观看| 国产精品尤物福利片在线观看| 国内精品久久久久久影视8| 国产精品久久77777| 国产精品社区| 亚洲欧洲日韩在线| 欧美成人免费一级人片100| 精品999久久久| 国产日韩三区| 久久成人这里只有精品| 亚洲天堂男人| 国产伦精品一区二区三区四区免费| 欧美jizzhd精品欧美喷水| 久久er99精品| 欧美激情亚洲激情| 性欧美暴力猛交另类hd| 国产在线拍揄自揄视频不卡99| 久久天堂成人| 在线中文字幕日韩| 欧美激情一级片一区二区| 久久久久国产免费免费| 99xxxx成人网| 亚洲电影欧美电影有声小说| 国产精品av一区二区| 猫咪成人在线观看| 亚洲图片激情小说| 一本色道久久综合亚洲精品婷婷| 亚洲欧美综合v| 亚洲免费观看高清完整版在线观看熊| 欧美激情一级片一区二区| 免费在线观看成人av| 在线不卡中文字幕播放| 欧美天天视频| 黄网站色欧美视频| 欧美亚州韩日在线看免费版国语版| 欧美天堂亚洲电影院在线观看| 国产视频欧美视频| 国产日韩精品久久| 亚洲区在线播放| 免费亚洲电影| 亚洲香蕉伊综合在人在线视看| 久久国产一区| 国产日韩欧美在线观看| 国产精品久久久久三级| 亚洲午夜精品视频| 免费观看日韩| 国产裸体写真av一区二区| 亚洲人成亚洲人成在线观看| 久久久综合激的五月天| 欧美日韩成人| 亚洲精品欧美日韩| 欧美激情小视频| 久久久精品免费视频| 亚洲欧美日本伦理| 香蕉视频成人在线观看| 欧美一区三区二区在线观看| 激情久久久久久久| 亚洲激情影院| 一区二区三区免费在线观看| 亚洲精选中文字幕| 久久国产精品久久w女人spa| 欧美视频一二三区| 欧美激情一区二区三区全黄| 欧美亚洲尤物久久| 亚洲免费影院| 国产一级精品aaaaa看| 在线一区亚洲| 国产精品综合久久久| 久久本道综合色狠狠五月| 久久日韩粉嫩一区二区三区| 国产精品xvideos88| 国产精品久久国产三级国电话系列| 亚洲精品在线观看视频| 久久国产日韩欧美| 夜夜嗨av一区二区三区四区| 欧美一级免费视频| 国内成+人亚洲+欧美+综合在线| 国产精品久久久久久久久免费桃花| 久久免费偷拍视频| 欧美激情片在线观看| 欧美片第1页综合| 国产精品久久久久久模特| 国产精品午夜国产小视频| 正在播放欧美视频| 欧美日韩一区二区三区| 亚洲一区亚洲二区| 亚洲欧美中文在线视频| 欧美色图麻豆| 美日韩精品视频免费看| 亚洲欧美视频在线观看视频| 国产伦精品一区二区三区| 激情婷婷欧美| 免费人成精品欧美精品| 国产色产综合产在线视频| 亚洲精品一区中文| 欧美成人亚洲成人| 日韩亚洲欧美综合| 日韩亚洲一区在线播放| 国产精品欧美一区二区三区奶水| 99在线视频精品| 亚洲欧美另类久久久精品2019| 在线观看亚洲视频啊啊啊啊| 亚洲一区999| 国产一区再线| 91久久线看在观草草青青| 国产精品视频一区二区三区| 欧美自拍丝袜亚洲| 欧美日韩精品伦理作品在线免费观看| 午夜精品久久久久久99热软件| 久久精品国产69国产精品亚洲| 国产精品成人免费| 欧美日韩午夜在线视频| 亚洲欧洲一区二区在线观看| 久久香蕉国产线看观看网| 久久久综合网| 欧美日韩亚洲一区| 麻豆精品91| 国产日韩欧美成人|