《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于機器學習的網絡媒體熱點話題 預測方法研究與實現
基于機器學習的網絡媒體熱點話題 預測方法研究與實現
2014年微型機與應用第15期
梁 野1,2,郭寧寧1,李碧萩1,李 超2,邢春曉2
1.北京外國語大學 計算機系2.清華大學 信息技術研究院
摘要: 針對目前互聯網“富信息化”現象,提出了基于機器學習的網絡熱點話題預測的思想。該思想通過總結能盡量準確描述熱點話題的一組特征,得到每篇新聞各自的特征向量,并針對大量近期已知是否熱門的隨機新聞樣本內容進行聚類處理。基于健壯精準的分類算法,利用支持向量機將向量映射到高維空間達到分類目的。在機器學習過程中,采用大量試驗的方法修改并完善特征向量的組成、度量及權重,最終達到準確作出熱點話題預測的目的。
Abstract:
Key words :

  摘  要: 針對目前互聯網“富信息化”現象,提出了基于機器學習的網絡熱點話題預測的思想。該思想通過總結能盡量準確描述熱點話題的一組特征,得到每篇新聞各自的特征向量,并針對大量近期已知是否熱門的隨機新聞樣本內容進行聚類處理?;诮丫珳实姆诸愃惴ǎ弥С窒蛄繖C將向量映射到高維空間達到分類目的。在機器學習過程中,采用大量試驗的方法修改并完善特征向量的組成、度量及權重,最終達到準確作出熱點話題預測的目的。

  關鍵詞: 機器學習;網絡媒體;熱點話題;特征向量;分詞;預測

  互聯網信息發布的便利性使得大眾每天面對爆炸性增長的信息沖擊,大量文本及文本信息在豐富大眾生活的同時,也給用戶帶來了困擾。人們在獲取固定信息的同時,往往希望獲取特定領域的流行信息。為滿足人們的這種需求,互聯網新聞給出了相應的對策,如訂閱熱門話題、熱門新聞上首頁等措施。這些雖然在一定程度上解決了上述需求,但熱門信息的排序仍然需要人工手動添加完成,從時間成本和人工成本上來說都十分浪費,并且用戶也無法及時得到最新的熱門資訊。

  為此,本文提出了基于機器學習的網絡熱點話題預測方法,該方法可以有效地滿足互聯網用戶的上述需求,并幫助新聞工作者有效減少工作量。利用機器學習帶來的便利性,不僅可以快速分類出熱門新聞話題,并且可以做到按熱門排序,這樣既能方便用戶快速聚焦社會生活中的熱門話題,同時也能幫助網頁新聞工作者大量減少因為排序而帶來的簡單重復的工作量。

1 國內外發展現狀

  在國際上,熱門話題的發掘工作層出不窮。彭菲菲等人針對信息冗余等現象提出了資源整合方法,對熱點話題發現的關鍵技術做了一些改進[1];王巍等人針對Chen Kuan新聞報道側重點的變化提出了基于多中心模型的熱點話題發現算法[2];賴錦輝等人針對微博中孤立點較多的現象提出了消除孤立點的微博熱點話題發現方法,消除孤立點再用CURE算法聚類,效果較好,但僅針對特征明顯的微博進行研究[3];黃蕉平等人基于微博進行了負面新聞的早期預測研究工作,由于微博特有的轉發量、點贊數等多維度為其研究成果在其他領域的應用帶來了一定的局限性。除了以上學術界的相關工作研究,商業領域也存在許多熱點話題資訊系統,比如常用的谷歌手機軟件Google Currents2.0在最近的更新中就特別加入了Breaking Stories版塊??偨Y以上研究成果,國內外仍沒有很好的熱點話題預測研究,有的側重點在挖掘而不在預測,有的著眼于預測卻不具有很好的擴展性。

  本文提出一種實用性廣、可預測性強的熱點話題預測方法,總結出一組能盡量準確描述熱點話題特征,得到每篇新聞各自的特征向量,然后基于這組特征對大量近期隨機已知是否熱門的樣本新聞文本內容進行聚類處理,利用支持向量機對數據進行分類。由于機器學習是一個需要反復修改的過程,該方法的另一個研究重點就是在大量試驗中修改并完善特征向量的組成、度量以及權重,最終希望能達到準確作出熱點話題分類即預測的目的。

2 基于機器學習的熱點話題預測方法


001.jpg


  根據互聯網數據挖掘技術和已有的新聞話題預測模型,得到圖1所示的整體設計結構圖。該結構圖主要由數據挖掘器、特征提取器以及分類器3部分構成。

  從第三步訓練結果→支持→測試結果→反饋→特征提取器可以看出,該步驟是一個不斷循環的過程,目的在于根據測試結果不斷調整特征值,直到達到滿意的效果。

  由于步驟模塊化,該結構設計可應對多種不同需求的話題預測,支持不同新聞網站、不同類別下新聞預測以及熱點或非熱點的新聞話題預測。

  2.1 數據挖掘問題

  本節以CNN國際新聞網站為例,闡述新聞挖掘提取過程。該新聞網站每天有上萬條新聞,如何準確挖掘及提取4個關鍵屬性是數據挖掘器需要解決的主要問題。設計思路是將網站上的無數條鏈接看做一個樹狀結構,CNN主頁URL即為該樹狀結構的父節點。首先對每一層進行廣度優先遍歷,將獲取到的新聞鏈接存入隊列中,接著進行深度優先遍歷,直到獲取到數量足夠多的新聞為止。該方法的優點是挖掘到的新聞不會重復。針對每一個新聞鏈接,首先利用httpclient客戶端編程工具包提取網頁源代碼,通過HTML解析技術分別將新聞標題、作者、發布時間和正文4項要素提取出來,每提取一篇新聞即將4要素存入連接好的數據庫中,該表的格式設計如表1所示。

003.jpg

  2.2 特征提取問題

  2.2.1 關鍵詞模式匹配技術簡介

  模式(Schema)是指按照某種結構組織起來的多個元素的集合,模式匹配是指將兩個模式作為輸入,計算模式元素之間語義上的對應關系的過程[4]。本文中特征向量中的兩個元素——知名度和敏感度,需要計算新聞文章中出現的名人數或敏感詞的個數,為了實現這一計算,故選用模式匹配技術。由于熱點話題的特點,在新聞話題預測中不需要找出具體匹配位置。

  2.2.2 特征提取

 ?。?)知名度。建立名人庫[5],匹配新聞,若出現詞庫中人名則該特征記為1,否則記為0。

  famous=0(初始值)(1)

  (2)敏感度。建立敏感詞詞庫(如explosion,death等),新聞標題及內容中出現的敏感詞次數記為a,敏感詞庫總次數為b,定義敏感度為a/b(0-1)。

  Sensitivity=a/b(2)

 ?。?)文本長度。新聞正文長度過長或過短都會影響其熱度,首先設定該長度閾值為500,該值根據實驗測試結果不斷調整。

  Length=500(初始值)(3)

  (4)時效性。當前時間與發表時間求差,差值x以24為閾值。

  YGAR1RZAJG687@PKBB2BDPU.png

 ?。?)生動性。統計一篇新聞的形容詞個數m占整篇新聞詞數n的比例(0~1),比例高者權重高,新聞話題熱度更高。

  Vivid=m/n(5)

  2.3 分類器問題

  2.3.1支持向量機技術簡介

  支持向量機(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它的原理是尋找一個最優的分類超平面,在保證精度的同時能夠使平面兩側的空白做到最大化,所以理論上來說支持向量機可以實現線性數據的最優分類[6]。上文提到的特征向量就是一組可分的線性數據,故選用支持向量機技術。

  2.3.2 機器學習技術簡介

  機器學習ML(Machine Learning)就是讓機器來模擬人類的學習功能,是一門研究怎樣用機器來模擬或實現人類學習活動的學科,要使計算機具有某種學習能力,就需要為其建立相應的學習系統。本文背景下的學習系統基本模型如圖2所示。

002.jpg

  其中,新聞信息為互聯網中實時更新的新聞內容;關鍵詞提取是將新聞內容等要素加工為知識的過程;知識庫則是用來存儲上一環節得到的知識;執行環節是利用知識庫中的知識完成分類的過程,并且把信息反饋給學習環節(關鍵詞提?。?,達到良性學習的目的。

  2.3.3 分類器原理

  將上節提取出的特征集拿出90%作為特征訓練集放入分類器中進行分類學習,分類器得到分類標準后將剩下的10%特征集用于測試訓練集,檢測分類標準的準確度及可信性。將結果反饋到特征提取器中,并不斷進行特征及權重的調整[7]。最終達到分類出熱點新聞和非熱點新聞的目的,即熱點新聞話題預測的目的。

  在當今信息爆炸的時代背景下,預測熱點新聞話題的工作具有十分重要的實際意義。根據目前已有的大量相關工作,提出由數據挖掘器、特征提取器和分類器3部分組成的熱點新聞話題預測模型,該模型通過機器學習的手段不斷進行特征及權重的調整,從而達到預測熱點話題的目的。這項工作的研究成果,不僅能引導用戶去關注社會和生活中的焦點話題,同時也能幫助網絡新聞工作者降低繁重重復的工作量,因此,它具有較為廣泛的適用性,并能創造一定的經濟效益和社會效益。

  參考文獻

  [1] 彭菲菲.網絡熱點話題發現的關鍵技術研究[D].北京:中國礦業大學(北京),2012.

  [2] 王巍,楊武,齊海鳳.基于多中心模型的網絡熱點話題發現算法[J].南京理工大學學報(自然科學版),2009,33(4):422-426.

  [3] 賴錦輝,梁松.一種消除孤立點的微博熱點話題發現方法[J].計算機應用與軟件,2014(1):105-137,139.

  [4] RAHM E, BERNSTEIN P A. A survey of approaches to automatic schema matching[J]. The VLDB Journal, 2001, 10(4): 334-350.

  [5] 馬子恩.熱點事件新聞語料庫的研制及詞匯研究[D].南京:南京師范大學,2012.

  [6] LI S, ZHAO J, SONG Z, et al. Study on topic tracking system based on SVM[C]. 2011 Fourth International Sym-

  posium on Knowledge Acquisition and Modeling(KAM), IEEE, 2011: 83-87.

  [7] ZHENG Y, LU R. An adaptive topic tracking method based on feedback stories[C]. International Symposium on Information Technology in Medicine and Education, 2012(2):1021-1025.


此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          欧美高清视频| 久久久久国产精品一区二区| 亚洲国产裸拍裸体视频在线观看乱了| 欧美电影免费观看高清完整版| 国产精品一国产精品k频道56| 亚洲精品欧美日韩| 一本色道久久综合亚洲精品按摩| 在线亚洲免费视频| 国产精品久久久久久福利一牛影视| 亚洲一区二区三区精品动漫| 亚洲一区二区三区色| 国产女主播一区二区三区| 欧美成人免费网| 亚洲欧美日本日韩| 亚洲一区二区三区乱码aⅴ蜜桃女| 国产三级精品在线不卡| 一区二区视频在线观看| 亚洲大片免费看| 国产精品久久久久aaaa九色| 欧美日韩亚洲一区二区三区在线| 久久成人国产精品| 欧美激情精品久久久久久黑人| 国模 一区 二区 三区| 亚洲精品久久| 久久影院午夜论| 欧美日韩国产综合视频在线观看中文| 蜜桃av噜噜一区二区三区| 中国日韩欧美久久久久久久久| 在线中文字幕日韩| 亚洲美女色禁图| 亚洲深夜福利在线| 欧美精品在线观看91| 欧美日韩国产精品专区| 亚洲视频精品在线| 欧美精品v日韩精品v国产精品| 亚洲欧美www| 国产一区二区三区在线观看免费| 国产精品视频导航| 日韩手机在线导航| 最新国产の精品合集bt伙计| 欧美激情小视频| 国产婷婷一区二区| 午夜欧美精品久久久久久久| 亚洲视频在线二区| 国产精品美女主播在线观看纯欲| 蜜臀av性久久久久蜜臀aⅴ四虎| av不卡在线观看| 亚洲人成网站影音先锋播放| 在线亚洲精品福利网址导航| 亚洲黄色免费电影| 亚洲午夜电影| 国产精品视频专区| 国产精品久久久久久久午夜片| 亚洲一级网站| 欧美va亚洲va国产综合| 亚洲综合视频在线| 韩国av一区二区三区| 激情五月综合色婷婷一区二区| 国产一区二区av| 久久精品女人的天堂av| 欧美日韩网站| 一区二区不卡在线视频 午夜欧美不卡'| 久久久久国内| 一区二区欧美亚洲| 亚洲视频欧美视频| 久久在线免费视频| 欧美午夜久久| 亚洲私人影院| 一本大道久久精品懂色aⅴ| 亚洲精品系列| 欧美日韩视频一区二区| 欧美日韩国产一区精品一区| 国产精品www994| 亚洲激情第一页| 免费欧美日韩| 女女同性精品视频| 午夜精品久久久久久久久久久| 欧美在线播放一区| 鲁大师影院一区二区三区| 销魂美女一区二区三区视频在线| 欧美吻胸吃奶大尺度电影| 久久国产免费| 在线视频欧美精品| 国产精品久久久久毛片软件| 欧美在线播放一区| 国产精品一香蕉国产线看观看| 亚洲日韩欧美一区二区在线| 国产日韩欧美一区二区| 久久一区二区三区四区| 久久精品国产亚洲a| 国产精品中文字幕在线观看| 欧美日在线观看| 国产精品久久777777毛茸茸| 亚洲一区二区三区午夜| 中日韩男男gay无套| 亚洲欧洲日产国产网站| 亚洲欧美日韩天堂| 在线观看中文字幕不卡| 欧美成人精品一区| 久久精品99国产精品酒店日本| 国产精品九九久久久久久久| 在线成人av.com| 免费不卡在线观看av| 亚洲欧洲在线免费| 亚洲裸体视频| 亚洲国产成人久久综合| 免费久久99精品国产自在现线| 欧美激情视频在线播放| 蜜桃久久av一区| 国产精品任我爽爆在线播放| 99精品国产99久久久久久福利| 亚洲一区在线看| 免费91麻豆精品国产自产在线观看| 亚洲一区二区三区在线看| 欧美国产精品| 欧美专区一区二区三区| 欧美电影在线播放| 国产真实乱子伦精品视频| 日韩亚洲一区在线播放| 免费视频最近日韩| 欧美成人精品一区| 欧美高清视频在线观看| 亚洲一区二区精品在线观看| 欧美成人首页| 99热在线精品观看| 欧美成人一区二区三区片免费| 欧美日韩福利在线观看| 在线观看亚洲一区| 亚洲一区在线视频| 在线日韩视频| 一区二区三区免费观看| 欧美国产成人精品| 欧美日韩国产影片| 欧美日韩一区二区视频在线观看| 美女啪啪无遮挡免费久久网站| 欧美香蕉大胸在线视频观看| 韩国三级电影久久久久久| 亚洲欧美日韩视频二区| 欧美日韩免费观看一区二区三区| 国产性做久久久久久| 欧美精品亚洲| 性欧美精品高清| 欧美激情第4页| 欧美日韩亚洲一区二区三区在线观看| 国产精品免费看久久久香蕉| 欧美福利视频在线观看| 性色一区二区| 国产精品中文在线| 欧美成人日韩| 免播放器亚洲| 91久久精品日日躁夜夜躁国产| 一区二区三区在线观看视频| 亚洲毛片在线观看| 国产亚洲精品bv在线观看| 欧美一进一出视频| 美女精品在线| 久久精品一区二区国产| 国产亚洲欧美激情| 久久影院亚洲| 亚洲一区二区三区成人在线视频精品| 国产精品国产三级国产普通话99| 亚洲精品日韩一| 欧美中文字幕视频在线观看| 一区二区三欧美| 久久久精品视频成人| 久久躁日日躁aaaaxxxx| 久久久综合精品| 久久av红桃一区二区小说| 欧美日韩在线精品一区二区三区| 日韩亚洲欧美一区二区三区| 精品成人一区二区三区四区| 国产在线视频欧美一区二区三区| 亚洲淫片在线视频| 男女精品视频| 香蕉尹人综合在线观看| 亚洲欧美日韩精品久久奇米色影视| 国产人久久人人人人爽| 在线不卡免费欧美| 国产日韩精品综合网站| 国产精品国产三级国产专播品爱网| 欧美日韩中文字幕综合视频| 亚洲第一精品在线| 欧美在线观看视频| 欧美日韩国产a| 欧美三级精品| 亚洲精品久久久一区二区三区| 羞羞视频在线观看欧美| 韩国av一区二区| 国产精品久久久久久久久久免费看| 久久精品免费看| 久久免费视频观看| 国产亚洲免费的视频看| av成人国产| 激情久久久久久久| 欧美成人官网二区| 在线免费观看日本一区| 久久成人人人人精品欧| 久久精品成人| 欧美福利一区二区| 亚洲无毛电影| 亚洲美女视频在线免费观看| 国产精品色婷婷久久58| 欧美激情a∨在线视频播放| 亚洲精品一区在线观看香蕉| 欧美日韩在线亚洲一区蜜芽| 欧美国产日本在线| 国产精品揄拍一区二区| 亚洲精品国产精品国自产在线| 国产一区二区激情| 韩国精品在线观看| 狠狠入ady亚洲精品经典电影| 欧美系列一区| 麻豆亚洲精品| 亚洲激情在线观看视频免费| 免费观看在线综合| 免费成人黄色av| 男男成人高潮片免费网站| 亚洲三级观看| 国产欧美三级| 日韩亚洲一区二区| 欧美大片免费观看在线观看网站推荐| 欧美成人国产一区二区| 欧美激情一区二区三区不卡| 一本色道久久88亚洲综合88| 国产一区二区三区免费在线观看| 国产精品久久久久久模特| 欧美在线视频一区| 欧美影院午夜播放| 国产三级欧美三级| 亚洲精品视频在线观看网站| 国产精品久久久久久av下载红粉| 能在线观看的日韩av| 亚洲小说春色综合另类电影| 国产精品国产a级| 国产一二三精品| 99re热这里只有精品免费视频| 久久亚洲春色中文字幕久久久| 欧美大尺度在线观看| 亚洲精品日韩在线| 香蕉乱码成人久久天堂爱免费| 欧美肉体xxxx裸体137大胆| 日韩视频免费在线观看| 9久re热视频在线精品| 在线视频欧美精品| 亚洲欧美一区二区精品久久久| 亚洲视频二区| 一区二区精品| 亚洲一区三区电影在线观看| 国产精品久久久久久久久借妻| 亚洲国产视频直播| 老司机午夜免费精品视频| 欧美日韩极品在线观看一区| 中文精品99久久国产香蕉| 亚洲一区二区高清| 国产一区二区三区在线观看免费视频| 亚洲精选在线观看| 亚洲国产另类精品专区| 欧美色欧美亚洲另类二区| 国产精品免费一区二区三区在线观看| 欧美成人精品影院| 欧美日韩中文| 亚洲影视在线播放| 一区二区电影免费观看| 亚洲承认在线| 国产亚洲福利一区| 狠狠色丁香婷婷综合| 国产午夜精品美女毛片视频| 亚洲一区精品在线| 一区二区三区四区精品| 国产精品成人av性教育| 久久人91精品久久久久久不卡| 久久久精品性| 国产欧美日韩在线| 亚洲日本中文字幕| 一区二区三区在线免费视频| 欧美色中文字幕| 欧美成年视频| 欧美国产乱视频| 欧美成人日本| 欧美在线一二三区| 欧美午夜视频在线观看| 欧美mv日韩mv国产网站| 国产日产欧产精品推荐色| 欧美日韩一级大片网址| 老鸭窝亚洲一区二区三区| 国产日韩欧美一区二区三区四区| 9i看片成人免费高清| 欧美精品国产一区| 欧美日韩国产二区| 久久嫩草精品久久久精品一| 欧美精品18videos性欧美| 欧美日本一道本在线视频| 欧美成人综合在线| 国产精品久久久久久久9999| 亚洲电影有码| 久久精品视频在线| 欧美在线免费视频| 欧美日韩大陆在线| 米奇777超碰欧美日韩亚洲| 亚洲一级高清| 欧美日韩国产综合视频在线观看| 一本色道**综合亚洲精品蜜桃冫| 久久婷婷蜜乳一本欲蜜臀| 欧美激情女人20p| 亚洲国产高清aⅴ视频| 国产午夜精品久久久久久久| 午夜精品久久久久久久久| 亚洲一区欧美激情| 嫩草国产精品入口| 欧美一区免费| 久久人人看视频| 久久夜色精品国产欧美乱极品| 欧美一区二区三区在线观看视频| 亚洲一级在线观看| 中文在线资源观看网站视频免费不卡| 美女免费视频一区| 牛夜精品久久久久久久99黑人| 国内精品国产成人| 国产精品乱码一区二三区小蝌蚪| 欧美日韩国产免费| 亚洲黄页视频免费观看| 亚洲国产精品99久久久久久久久| 欧美激情第4页| 伊人精品在线| 亚洲国产精品第一区二区| 国产精品美女久久福利网站| 欧美jizzhd精品欧美巨大免费| 国产精品一区=区|