《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > Web文檔聚類中k-means算法的改進
Web文檔聚類中k-means算法的改進
王子興 馮志勇
摘要: 介紹了Web文檔聚類中普遍使用的、基于分割的k-means算法,分析了k-means算法所使用的向量空間模型和基于距離的相似性度量的局限性,從而提出了一種改善向量空間模型以及相似性度量的方法。
Abstract:
Key words :

    摘  要: 介紹了Web文檔聚類中普遍使用的、基于分割的k-means算法,分析了k-means算法所使用的向量空間模型和基于距離的相似性度量的局限性,從而提出了一種改善向量空間模型以及相似性度量的方法。

  關鍵詞: 文檔聚類  k-means算法  向量空間模型  相似性度量

 

  Internet的快速發展使得Web上電子文檔資源在幾年間呈爆炸式增長,與數據庫中結構化的信息相比,非結構化的Web文檔信息更加豐富和繁雜。如何充分有效地利用Web上豐富的文檔資源,使用戶能夠快速有效地找到需要的信息已經成為迫切需要解決的問題。

  聚類能夠在沒有訓練樣本的條件下自動產生聚類模型。作為數據挖掘的一種重要手段,聚類在Web文檔的信息挖掘中也起著非常重要的作用。文檔聚類是將文檔集合分成若干個簇,要求簇內文檔內容的相似性盡可能大,而簇之間文檔的相似性盡可能小。文檔聚類可以揭示文檔集合的內在結構,發現新的信息,因此廣泛應用于文本挖掘與信息檢索等方面。

  文檔聚類算法一般分為分層和分割二種,普遍采用的是基于分割的k-means算法。

  k-means算法具有可伸縮性和效率極高的優點,從而被廣泛地應用于大文檔集的處理。針對k-means算法的缺點,許多文獻提出了改進方法,但是這些改進大多以犧牲效率為代價,且只對算法的某一方面進行優化,從而使執行代價很高。

  k-means算法中文檔表示模型采用向量空間模型(VSM),其中的詞條權重評價函數用TF*IDF表示。然而實際上這種表示方法只體現了該詞條是否出現以及出現多少次的信息,而沒有考慮對于該詞條在文檔中出現的位置及不同位置對文檔內容的決定程度不同這一情況。另一方面,k-means算法使用基于距離的相似性度量,然而文檔的特征向量一般超過萬維,有時可達到數十萬維,這種高維度使得這種度量方法不再有效。針對以上問題,本文提出相應的解決方法,即改進的k-means算法。實驗表明改進后的k-means算法不僅保留了原算法效率高的優點,而且聚類的平均準確度有了較大提高。

1 k-means算法簡介

  k-means算法是一種基于分割的聚類算法?;诜指畹木垲愃惴梢院唵蚊枋鰹?對一個對象集合構造一個劃分,形成k個簇,使得評價函數最優。不同的評價函數將產生不同的聚類結果,k-means算法通常使用的評價函數為:

  k-means算法的具體過程如下:

  (1)選取k個對象作為初始的聚類種子;

  (2)根據聚類種子的值,將每個對象重新賦給最相似的簇;

  (3)重新計算每個簇中對象的平均值,用此平均值作為新的聚類種子;

  (4)重復執行(2)、(3)步,直到各個簇不再發生變化。

  k-means算法的復雜度為:O(nkt)。其中:n為對象個數,k為聚類數,t為迭代次數。通常k、t<< n,所以k-means算法具有很高的效率。同時k-means算法具有較強的可伸縮性,除了生成k個聚類外,還生成每個聚類的中心,因此被廣泛應用。

2  k-means算法的分析及其改進

2.1 權重評價函數的改進

  k-means算法采用向量空間模型(VSM)將Web文檔分解為由詞條特征構成的向量,利用特征詞條及其權重表示文檔信息。向量d=(ω123,∧,ωm)表示文檔d的特征詞條及相應權重。其中:m為文檔集中詞條的數目,ωi(i=1,∧,m)表示詞條ti在文檔d中的權重。特征權重ωi的計算通常采用經典的TF*IDF算法,并進行規格化處理:

   

  其中:TF表示該詞條ti在文檔d中的頻數,DFi表示文檔集中包含詞條ti的文檔數,N表示文檔集中的文檔數。從公式(2)可以看出,這種特征權重的計算方法是把文檔當做一組無序詞條,詞條特征權重只是體現了該詞條是否出現以及出現次數多少的信息,而對于詞條在文檔中的不同位置對文檔內容的決定程度不同這一問題卻未加考慮。

  對于Web文檔而言,由于XML(可擴展標識語言)已經成為Web上新一代數據內容描述標準,因此Web上的文檔聚類應體現XML文檔的特性。XML文檔中的基本單位是元素(element)。元素由起始標簽、元素的文本內容和結束標簽組成。它的語法格式為:

  <標簽> 文本內容

  基于XML的Web文檔中,用戶把要描述的數據對象放在起始標簽和結束標簽之間,無論文本的內容多長或者多么復雜,XML都可以通過元素的嵌套進行處理。不同標簽下,同一個詞條也可能有不同含義。由此可見,XML文檔中不同位置的詞條對文檔內容的決定程度會有很大的不同。

  通常,一個文檔的標題、摘要、關鍵詞以及段首和段尾出現的詞條對整個文檔內容有很大的決定作用。在XML文檔中,通過標簽可以得出詞條對文檔內容的決定程度,但很難對這種決定程度進行準確的定義。因此,本文利用模糊集理論,根據XML文檔特性計算詞條從屬關系系數,并且將其量化為介于0和1之間的隸屬度,加入到原有權重評價函數,從而表明XML文檔具有該詞條特征的程度。

  為了簡化計算,詞條在文檔中出現的位置主要分為標題、摘要、關鍵詞、段首尾、特殊標識處和正文幾個部分。其相應權重為σt,在[0,1]之間取值,用lt表示詞條在相應位置出現的次數。加入了詞條隸屬度的權重評價函數為:

2.2 相似性度量的改進

  利用向量空間模型處理Web文檔時,由于文檔的繁雜性,表示文檔的特征向量可以達到數萬維,甚至更多。通過預處理階段停用詞和無用高頻詞的過濾后,特征向量的維數雖然顯著減少,但剩余的維數仍然很多。本文實驗中選用的娛樂類1500篇Web文檔在預處理后特征向量的維數仍然達到了8291維。

  如此高維的特征向量使得聚類算法的處理時間大大增加,同時對算法的準確性產生不利影響,并且這些特征對于聚類來說大多是無用的,例如聚類算法STC(Suffix Tree Clustering)將特征向量的維數減少到幾十維仍然能夠準確聚類。這主要是因為,對于非結構化的文檔,體現其類別特點的特征詞有很多,當進行某一方面的聚類時,與此無關的特征詞就成了噪音。從這一點來說,文中前面改進的權重評價函數體現了特征詞對文檔內容的貢獻程度,從而突出了與聚類相關的特征詞,降低了無關特征詞的干擾。另一方面,過多的特征詞使得特定的特征詞出現的頻率較低,容易被噪音所淹沒。

  k-means算法使用基于距離的相似性度量,通過計算文檔向量之間的距離表明文檔之間相似性的大小。通常采用的是余弦函數,計算公式為:

  利用向量空間模型對文檔進行聚類只能根據文檔的二種信息:(1)文檔中每個特征詞出現的頻率;(2)文檔的長度。由于文檔長度與文檔所屬的類別之間的關系不大,因此可以把所有的文檔長度進行歸一化處理,從而使文檔向量具有統一的特征維數m。

  其中:m為特征向量維數,αk為二個文檔對應特征詞條的四位碼字的十進制數值差的絕對值。由于這種相似性的計算使用的是整數,所以計算速度和精度得到一定的提高。

  可以利用簡單的示例驗證公式(5)的合理性。當二個文檔完全相似時,sim(di,dj)的值等于1,而二個文檔完全不同時它的值為0。這種方法不僅反應了文檔之間的差異,而且定量地描述了這種差異性,從而為文檔的聚類提供了依據。下面通過對具體的Web文檔進行實驗并進一步地驗證。

3  實  驗

  實驗用的文檔是從搜狐的中文網站上獲取的娛樂類文檔,選用其中的1500篇。對這1500篇文檔進行手工分類,如表1所示共分為10類。

 

 

  衡量信息檢索性能的召回率和精度也是衡量分類算法效果的常用指標。然而聚類過程中并不存在自動分類類別與手工分類類別確定的一一對應關系,因此無法像分類一樣直接以精度和召回率作為評價標準。為此本文選擇了平均準確率作為評價的標準。平均準確率通過考察任意二篇文章之間類屬關系是否一致來評價聚類的效果。

  試驗中對使用公式(3)和(5)的改進k-means算法和原k-means算法的平均準確度進行了比較,實驗結果如表2所示。

 

 

  實驗結果表明,改進后的k-means算法與原k-means算法在運行速度上基本相同甚至略快,平均準確度則比原算法有了普遍提高,尤其在正確指定聚類數k時,平均準確度提高了近7%,說明此算法具有較高的準確性。由于實驗中使用的文檔集很小,所以改進的算法優勢不很明顯。

4 結束語

  本文對k-means算法進行了改進。根據不同位置的特征詞條對文檔內容的不同決定程度,提出一種新的文檔特征詞條的權重評價函數,并在此基礎上提出一種文檔相似性的度量方法。實驗表明改進后的算法不僅保留了原k-means算法效率高的優點,而且在平均準確度方面比原算法有了較大提高。實驗還表明,k-means算法要依賴原始聚類數k的選擇。如何為初始文檔集選擇合適的聚類數k以及進一步提高平均準確度是今后改進k-means算法的主要研究方向。

 

參考文獻

1 Fraley C,Raftery A E.How Many Clusters?Which ClusteringMethod?Answers Via Model-Based Cluster Analysis.

Department of Statistics University of Washington Technical Report,1998

2 Xu L.How Many Clustering?:A YING-YANG Machine Based Theory For A Classical Open Problem In Pattern Recognition. IEEE Trans,Neural Networks,1996;3(10)

3 Jiang M F,Tseng S S,Su C M.Two-phase clustering process for outliers detection.Pattern Recognition Letters,2001;(22)(6~7)

4 Michaud P.Clustering techniques.Future Generation Computer System,1997;13(6)

5 Pedrycz W,Bagiela A.Granular Clustering:A Granular Signature of Data.IEEE Trans,Neural Networks,2002;32(2)

此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          国产视频在线观看一区| 欧美黄色影院| 国产欧美日韩不卡免费| 欧美日韩一区视频| 99ri日韩精品视频| 欧美人与禽性xxxxx杂性| 国产综合色产| 国产亚洲精品久| 亚洲国产福利在线| 国产资源精品在线观看| a91a精品视频在线观看| 国产手机视频一区二区| 国产日产亚洲精品系列| 国产视频在线观看一区二区| 亚洲一二三区视频在线观看| 日韩视频亚洲视频| 免费精品99久久国产综合精品| 欧美顶级艳妇交换群宴| 久久精品成人| 久久国产精品久久久久久电车| 亚洲午夜久久久| 久久精品视频免费播放| 精品1区2区| 亚洲免费观看高清完整版在线观看熊| 国产精品国产三级国产普通话蜜臀| 一区二区亚洲精品国产| 亚洲美女性视频| 久久久久高清| 一区二区电影免费观看| 精品动漫一区二区| 亚洲天堂网站在线观看视频| 欧美日韩精品一区二区在线播放| 午夜在线视频观看日韩17c| 久久精品视频在线免费观看| 亚洲精品字幕| 欧美另类极品videosbest最新版本| 韩国一区二区在线观看| 久久激情网站| 欧美视频日韩视频在线观看| 美女精品国产| 久久精品国产亚洲5555| 久久久久久亚洲精品杨幂换脸| 亚洲老板91色精品久久| 国产精品女主播一区二区三区| 国内精品久久久久久久影视蜜臀| 欧美一区二区观看视频| 久久精品国产96久久久香蕉| 国产综合激情| 亚洲第一天堂av| 久久青草福利网站| 国产精品久久久爽爽爽麻豆色哟哟| 欧美日韩国产首页在线观看| 久久av老司机精品网站导航| 亚洲国产经典视频| 国产精品视频免费一区| 一本一本久久a久久精品牛牛影视| 国产日韩1区| 看欧美日韩国产| 欧美视频在线不卡| 性色一区二区| 欧美啪啪成人vr| 欧美成人午夜激情| 欧美视频在线观看免费网址| 国产一区二区三区高清播放| 在线日韩一区二区| 久久se精品一区二区| 亚洲欧美日韩在线综合| 欧美激情综合亚洲一二区| 久久伊人亚洲| 久久综合色天天久久综合图片| 久久手机免费观看| 亚洲一区在线观看免费观看电影高清| 亚洲精品一线二线三线无人区| 亚洲另类在线视频| 狠狠综合久久av一区二区小说| 国产手机视频一区二区| 亚洲一区3d动漫同人无遮挡| 久久视频免费观看| 狠狠综合久久av一区二区小说| 日韩午夜在线视频| 久久亚洲春色中文字幕| 久久综合精品一区| 国产精品日韩精品欧美精品| 欧美精品一区二区三区高清aⅴ| 久久久久久久一区二区| 久久精品一区二区三区不卡牛牛| 欧美一区国产一区| 国内精品久久久久影院色| 在线精品福利| 国内一区二区在线视频观看| 亚洲高清视频在线观看| 亚洲特色特黄| 亚洲图片你懂的| 久久精品亚洲精品国产欧美kt∨| 国产精品天天摸av网| 亚洲视频在线观看三级| 欧美精品一二三| 国产亚洲激情在线| 久久成人国产| 国产精品二区在线观看| 欧美色欧美亚洲另类七区| 欧美激情久久久久| 国产毛片一区二区| 国产精品色网| 国产欧美精品一区二区三区介绍| 亚洲一区二区三区成人在线视频精品| 国产精品视频福利| 亚洲国产精选| 亚洲欧美高清| 欧美成人精品一区二区三区| 亚洲深夜福利| 久久久久久久久久久久久女国产乱| 噜噜噜躁狠狠躁狠狠精品视频| 亚洲美女视频在线观看| 国产一区二区高清不卡| 国产精品萝li| 日韩一级网站| 免费黄网站欧美| 欧美精品日韩www.p站| 国产精品日韩欧美一区| 免费成年人欧美视频| 在线观看精品视频| 欧美一区二区啪啪| 亚洲一级黄色| 99热这里只有精品8| 国产亚洲精品久久久| 欧美视频日韩| 亚洲精品一品区二品区三品区| 亚洲伊人观看| 一色屋精品视频免费看| 免费人成网站在线观看欧美高清| 国产一区av在线| 国产精品久久久久久久久久直播| 午夜一区二区三区不卡视频| 免费亚洲电影| 国际精品欧美精品| 午夜在线a亚洲v天堂网2018| 韩国三级电影久久久久久| 久久久精品五月天| 亚洲男人第一av网站| 久久福利资源站| 欧美国产视频一区二区| 在线播放亚洲一区| 国产三级欧美三级日产三级99| 国产乱人伦精品一区二区| 日韩午夜三级在线| 一区二区三区高清| 亚洲视频高清| 欧美日韩日本视频| 欧美一区视频| 欧美 日韩 国产精品免费观看| 国产精品乱子乱xxxx| 国模精品一区二区三区| 久久久久久成人| 久久一日本道色综合久久| 久久野战av| 欧美成人精品h版在线观看| 国产一区二区三区av电影| 国产在线精品一区二区中文| 久久亚洲精选| 久久性天堂网| 久久青草福利网站| 欧美国产国产综合| 国产精品三区www17con| 国语自产精品视频在线看抢先版结局| 久久se精品一区精品二区| 午夜激情久久久| 亚洲天堂男人| 久久综合国产精品台湾中文娱乐网| 久久麻豆一区二区| 午夜在线观看欧美| 一本一本久久a久久精品综合麻豆| 午夜欧美不卡精品aaaaa| 久久久精品国产一区二区三区| 在线成人www免费观看视频| 欧美日本在线看| 久久久久久亚洲精品不卡4k岛国| 欧美电影免费观看网站| 老司机精品视频一区二区三区| 欧美激情一区二区三区不卡| 国产精品vip| 亚洲第一色中文字幕| 欧美三级视频在线观看| 欧美大片在线看免费观看| 一区二区三区免费观看| 国产欧美韩国高清| 久久激情一区| 国产精品av一区二区| 亚洲深夜福利| 亚洲一区二区三区中文字幕在线| 最新成人av在线| 91久久国产综合久久蜜月精品| 欧美日韩性生活视频| 欧美在线日韩在线| 美女91精品| 在线观看国产成人av片| 久久九九国产精品| 亚洲人体大胆视频| 亚洲国产午夜| 在线观看一区二区视频| 久热国产精品视频| 久久精品99国产精品酒店日本| 伊人一区二区三区久久精品| 欧美午夜久久久| 一区二区三区四区国产| 揄拍成人国产精品视频| 亚洲欧美日本另类| 亚洲高清免费在线| 亚洲精品色婷婷福利天堂| 国产精品美女久久久久aⅴ国产馆| 欧美在线关看| 有码中文亚洲精品| 欧美成人免费小视频| 美女主播精品视频一二三四| 猛干欧美女孩| 亚洲欧美一区二区原创| 国产精品福利久久久| 亚洲欧美激情在线视频| 国产精品中文字幕欧美| 亚洲欧美成人| 国产又爽又黄的激情精品视频| 国产精品白丝jk黑袜喷水| 午夜精品免费| 久久久久久亚洲综合影院红桃| 狠久久av成人天堂| 欧美午夜激情小视频| 久久久美女艺术照精彩视频福利播放| 亚洲欧美日韩精品一区二区| 激情六月婷婷久久| 亚洲少妇最新在线视频| 欧美伊人久久久久久午夜久久久久| 欧美精品日韩三级| 欧美日韩国产成人在线观看| 亚洲国产人成综合网站| 亚洲午夜小视频| 国产精品日韩欧美综合| 日韩亚洲欧美一区二区三区| 亚洲综合色激情五月| 欧美日韩精品一区二区天天拍小说| 亚洲日韩欧美一区二区在线| 国产伦精品一区二区三区| 国产精品99一区| 久久亚洲精品伦理| 麻豆精品传媒视频| 国产亚洲欧美一区| 国产日本精品| 国产欧美精品日韩精品| 欧美视频在线播放| 欧美激情一区在线观看| 亚洲精品专区| 国产人成精品一区二区三| 亚洲一品av免费观看| 久久国产天堂福利天堂| 99亚洲一区二区| 在线免费高清一区二区三区| 亚洲一级黄色av| 亚洲制服欧美中文字幕中文字幕| 国产欧美一区二区精品秋霞影院| 精品粉嫩aⅴ一区二区三区四区| 欧美日韩免费高清| 亚洲人成高清| 国产精品久久久久一区二区三区共| 午夜性色一区二区三区免费视频| 亚洲黄色三级| 国产精品资源在线观看| 亚洲国产精品国自产拍av秋霞| 欧美日韩国产成人在线| 欧美日韩亚洲天堂| 一区二区三区.www| 亚洲精品一区在线观看| 日韩视频一区二区三区在线播放免费观看| 亚洲网站在线看| 亚洲高清不卡av| 亚洲国产天堂久久国产91| 亚洲一级黄色片| 久久这里只有| 亚洲免费高清视频| 亚洲女同同性videoxma| 亚洲私人影院| 欧美国产欧美综合| 欧美午夜不卡影院在线观看完整版免费| 国产精品久久久久久久久免费桃花| 国产精品入口尤物| 夜夜爽99久久国产综合精品女不卡| 久久精品亚洲精品国产欧美kt∨| 欧美a级一区| 亚洲精品美女在线观看| 亚洲电影免费观看高清完整版| 国产精品久久久久9999高清| 日韩视频―中文字幕| 麻豆精品精华液| 国产手机视频一区二区| 国产一区二区精品丝袜| 久久综合国产精品台湾中文娱乐网| 欧美视频中文一区二区三区在线观看| 亚洲美女精品一区| 国产精品久久久爽爽爽麻豆色哟哟| 久久―日本道色综合久久| 亚洲一二三级电影| 亚洲国产精品一区二区三区| 亚洲国产一区二区三区在线播| 在线视频你懂得一区二区三区| 亚洲午夜一区二区三区| 国产欧美日韩精品专区| 美女亚洲精品| 欧美日韩黄色大片| 亚洲激情成人在线| 欧美激情中文字幕一区二区| 一区二区三区偷拍| 国产主播喷水一区二区| 一区二区三区四区国产精品| 国产精品少妇自拍| 欧美理论电影网| 老司机精品福利视频| 国产精品美腿一区在线看| 欧美国产极速在线| 欧美日韩国产成人在线观看| 欧美视频一区二区三区在线观看| 亚洲一区二区三区四区中文| 欧美巨乳在线观看| 国产精品成人aaaaa网站| 狠狠操狠狠色综合网| 国产精品日韩一区| 国产一区二区三区网站| 久久精品人人做人人爽| 狂野欧美激情性xxxx| 欧美激情一区二区三区在线视频观看| 欧美一级夜夜爽|