《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > Web日志挖掘中一種改進的會話識別方法
Web日志挖掘中一種改進的會話識別方法
來源:微型機與應用2010年第15期
周愛武,程 博
(安徽大學 計算機科學與技術學院,安徽 合肥 230039)
摘要: 提出了一種改進的會話識別方法。該方法基于訪問站點的首頁和導航頁,以首頁或導航頁作為新會話開始的標識。選取真實的Web日志,用PL/SQL編程實現改進的會話識別方法,并與現有方法進行比較。實驗結果證明,改進的會話識別方法比現有方法識別會話更有效。
Abstract:
Key words :

摘  要: 提出了一種改進的會話識別方法。該方法基于訪問站點的首頁和導航頁,以首頁或導航頁作為新會話開始的標識。選取真實的Web日志,用PL/SQL編程實現改進的會話識別方法,并與現有方法進行比較。實驗結果證明,改進的會話識別方法比現有方法識別會話更有效。
關鍵詞: 數據預處理;Web日志;會話識別;站點首頁;導航頁

    Web日志挖掘現已成為Web挖掘研究的重點。其主要分為數據預處理、模式發現、模式分析3個階段[1]。數據預處理階段是要把從各種數據源得到的使用信息、內容信息和結構信息轉換成模式發現階段需要的數據抽象;模式發現階段旨在使用各種數據挖掘技術發掘隱藏在數據背后的規律和模式;模式分析階段旨在根據具體的實際應用,過濾掉在模式發現階段沒有用的規則或模式,并把有用的規則和模式轉換為知識。
    本文主要研究數據預處理階段的會話識別。在分析現有的會話識別方法基礎上,提出一種基于訪問站點首頁和導航頁的改進會話識別方法,最后通過實驗驗證了改進的會話識別方法比現有方法更有效。
1 數據預處理
    數據預處理是Web日志中最基礎、最頻繁的工作,是整個數據準備的核心工作。數據預處理的結果將直接影響到挖掘算法產生的規則和模式,因此預處理過程在整個Web日志挖掘過程中占據著非常重要的地位,是挖掘質量的保證。
    數據預處理包括數據清理、用戶識別、會話識別、路徑補充和事務識別5個階段[2]。(1)數據清理是指刪除Web日志中與挖掘算法無關的數據;(2)用戶識別是識別出訪問網站的每個用戶;(3)會話識別是在用戶識別之后,把每個用戶在一段時間內的訪問序列進行分解,從而得到相應的會話。會話是指同一用戶在一次瀏覽過程中連續請求的頁面序列,它代表了用戶對服務器的一次有效訪問;(4)路徑補充是對識別出的用戶會話進行優化的步驟,以使得其更加準確地描述用戶的瀏覽請求;(5)事務識別是將用戶會話進行語義分組,形成適合挖掘需要的事務。
2 會話識別分析
    用戶會話[3]是指用戶從進入站點到離開站點期間所訪問的一系列頁面序列集合??杀硎緸椋?br />   
    其中SessionID是會話標識,{(Pid1,t1)…(Pidk,tk)…(Pidn,tn)}是此次用戶會話的頁面訪問序列,Pid是訪問頁面的標識,t是訪問該頁面的時間。(Pid1,t1)表示用戶此次會話訪問的第一個頁面和時間,(Pidn,tn)表示用戶此次會話訪問的最后一個頁面和時間。
2.1 常用會話識別方法
    目前常用會話識別方法主要有兩大類:一類是基于時間閾值,另一類是基于用戶訪問頁面時的參引頁面?;跁r間閾值的會話識別方法又可細分為以下3類:
    (1)設定會話的持續時間閾值θ。即一個會話總的持續時間不超過θ。國外學者Catledge和Pitkow由實驗得出θ設為25.5 min較好[4],許多商業產品都采用30 min作為缺省值。
    (2)設定頁面的訪問時間閾值η[5]。假設(Pidi,ti)、(Pidi+1,ti+1)為一個用戶訪問序列中的兩條相鄰訪問記錄。只有當ti+1-ti≤η時,才認為這兩條記錄屬于同一個會話。當ti+1-ti>η時,(Pidi,ti)是上一次會話的最后一條訪問記錄,而(Pidi+1,ti+1)是新會話的第一條訪問記錄。一般η取10 min。
    (3)上述方法(2)是對所有頁面設定同一個頁面訪問時間閾值,并沒有因頁面的不同而不同。參考文獻[6]中,根據統計的頁面的訪問時間,在正態分布的假設下為每個頁面設定一個訪問時間作為切分會話閾值,并結合頁面內容及站點結構來確定頁面重要程度,對該閾值進行調整。這是一種個性化的時間閾值設置方法。
   
2.2 常用會話識別方法評估
    第(1)、(2)兩種方法使用單一時間閾值來識別用戶會話顯然是不合理的。方法(1)不能識別出訪問時間大于30 min的會話,且識別不出兩個連續較短的會話;方法(2)的不足在于,若一個用戶在訪問站點期間暫時離開電腦,但并沒有退出站點,過10 min后回來繼續瀏覽該站點,這實際上屬于同一個會話,而方法(2)則會錯誤地認為用戶開始了一個新的會話;方法(3)使用的統計學方法雖然大大減小了上限閾值,但仍然無法準確描述對頁面感興趣的用戶閱讀網頁的平均時間,無法區分超短時間用戶訪問記錄。
    基于參引頁面的會話識別方法引入了時間限制?駐,主要是考慮到下面這種情況:訪問頁面的引用頁面為空,用戶可能是通過點擊瀏覽器上的”BACK”按鈕,回溯到之前某個曾經瀏覽過的頁面,進而訪問到該頁。這顯然也是不合理的,用戶從p頁面回退到上級頁面后,用戶要在此頁面搜尋到感興趣的p頁面,并點擊鏈接進入該頁面,所需時間一般不止10 s,且用戶可能是回退多次后再點擊鏈接進入p頁面。因此,此處設置這個時間閾值并不合理。
3 改進的會話識別方法
3.1 會話劃分思考

    要準確地識別出用戶會話,關鍵在于識別出兩次相鄰會話的分割點。即上一次會話結束時訪問的頁面及下一次會話開始時訪問的頁面。而找出新會話開始時訪問的頁面,也就意味著上一會話的結束。因此,研究重點放在尋找標記新會話開始的訪問頁面。
    用戶開始訪問某一站點,一般是通過在瀏覽器的地址欄中輸入站點的URL或是通過點擊收藏欄中的收藏,通過站點的首頁進入此站點的,此時用戶也就開始了自己的一次會話。在Web服務器日志中,可以查看用戶訪問的URL是否是首頁來判斷用戶的這種行為。當用戶瀏覽完畢退出該站點,此時會話結束,而在Web服務器端日志中,無法判斷這種用戶行為。但當該用戶下一次通過首頁來訪問站點時,在Web日志中發現用戶又鍵入了首頁URL,則很顯然上一次會話在本條記錄之前結束,本條記錄標志用戶開始了一個新的會話。
3.2 改進的會話識別方法
    上述思想以訪問站點的首頁作為新會話開始的標記,基于這一前提用戶開始訪問站點時總是由站點首頁進入站點。但真實的訪問情況并不是所有的用戶每次開始訪問站點時都由首頁進入。一般的站點分若干版塊,而每一版塊都有自己的導航頁。如一門戶網站有新聞、體育、娛樂各版塊,有的用戶只對體育感興趣,那么他可能就會將體育版塊的導航頁做為收藏,每次訪問站點時,點擊收藏,直接進入體育導航頁開始訪問,而非先通過站點首頁,再進入體育版塊導航頁。因此,識別用戶會話,不能只以站點首頁作為開始標記,還應考慮各導航頁,因為很多用戶是直接通過導航頁訪問自己感興趣的頁面而非站點首頁。
    改進的會話識別方法如圖1所示,以站點首頁或導航頁作為新會話開始的標識。

    改進的會話識別方法具體描述如下:
    (1)首先用戶訪問序列中的第一條訪問記錄是第一個會話的開始序列,置入第一個會話中;
    (2)讀取用戶訪問序列中的下一條訪問記錄,直至序列中所有記錄都處理完畢;
    (3)判斷本次訪問的頁面是否是站點的首頁,若是首頁,則當前會話結束,新會話開始,將該次訪問置入新會話的訪問序列中,然后轉步驟(2)處理下一條訪問記錄。否則,轉步驟(4);
    (4)判斷本次訪問的頁面是否是站點的導航頁之一,若不是(即該頁面為內容頁),則將本次訪問置入當前會話的訪問序列中,然后轉步驟(2)繼續處理下一條訪問記錄。否則(即該頁面是導航頁之一),轉步驟(5)判斷它的上一條訪問記錄;
    (5)判斷上一條訪問記錄,若上一條訪問記錄訪問的頁面是首頁,則本次訪問記錄和上次訪問記錄同屬一個會話;若上一條訪問記錄訪問的頁面不是首頁,則本次訪問就標識了新會話的開始,將其置入新會話的訪問序列中。轉步驟(2),處理下一條訪問記錄。
4 實驗與結果分析
4.1 實驗過程
4.1.1 數據準備

    選用了安研星空站點http://www.ahusky.cn/從2009年2月17日至2009年3月5日的Web服務器日志,共計1 251 331條記錄,作為實驗數據,如圖2所示。

4.1.2 會話識別
    將這些Web訪問日志通過SQL Loader載入Oracle數據庫中,經過數據清理,共有有效訪問記錄35 273條,存放在表log中,如圖3所示。

    此處,以Web訪問日志中的IP地址作為用戶標識,利用Oracle PL/SQL編程實現上述改進的會話識別算法。為了與其他的會話識別方法進行比較,分別用2.1節中的方法(1)和方法(2)對同樣的Web日志進行會話識別,其中方法(1)取時間閾值30 min,方法(2)取時間閾值10 min。實驗結果如表1所示。

4.2 實驗分析
    通過實驗發現,改進的會話識別方法識別出的會話數(11 325條)要遠多于方法(1)(5 073條)和方法(2)(5 226條)。另外,為了比較這三種會話識別方法識別會話的準確率,將三種方法中識別出的關于用戶220.178.4.195的會話分別與原始的Web日志記錄比較,發現改進的會話識別方法識別會話的準確率(82.19%)也要高于方法(1)(62.47%)和方法(2)(64.85%)。由此可見,改進的會話識別方法能夠識別出更多的會話,且識別會話的準確率也更高。
    數據預處理階段的會話識別為模式分析階段提供了挖掘數據,即每一個有效的用戶會話,因此它直接影響到模式分析階段能否發現有效的模式。本文提出的基于站點首頁和導航頁的改進會話識別方法能識別出更多的會話,識別會話的準確率更高。
參考文獻
[1] SRIVASTAVA J, COOLEY R. Web usage mining: Discovery and applications of usage patterns from Web data[C]. SIGKDD Explorations, 2000.
[2] COOLEY R, MOBASHER B, SRIVASTAVA J. Data preparation for mining world wide web browsing patterns[J]. Knowledge and Information Systems, 1999,1(1):5-32.
[3] FACCA F M, LANZI P L. Mining interesting knowledge from Weblogs: a Survey[J]. Data and Knowledge Engineering, 2005,53(3):225-241.
[4] CATLEDGE L, PITKOW J. Characterizing browsing strategies in the world wide Web[J]. Computer Networks and ISDN Systems, 1995,27(6):1065-1073.
[5] SPILIOPOULOU M, MOBASHER B, BERENDT B, et al. A framework for the evaluation of session reconstruction heuristics in Web usage analysis[J]. Informs Journal of Computing, 2003,15(2):171-179.
[6] 嚴奉華,劉建平,楊凡丁.改進的Web訪問日志會話識別算法[J].計算機工程與設計.2008,29(22):5685-5687.
[7] 熊忠陽,周亞峰.Web訪問挖掘的預處理技術的研究[J].計算機技術與發展2007,17(8):14-18.

此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          女人香蕉久久**毛片精品| 亚洲精品韩国| 国产精品一区二区三区久久| 国产精品亚洲美女av网站| 国内精品久久久久影院 日本资源| 欧美三区不卡| 噜噜噜久久亚洲精品国产品小说| 亚洲天堂网在线观看| 国产一区二区成人| 欧美国产日本韩| 韩日精品视频一区| 亚洲精品一二三区| 国产精品久久久爽爽爽麻豆色哟哟| 免费观看成人| 亚洲精品国产精品久久清纯直播| 毛片一区二区三区| 激情成人av| 欧美视频官网| 欧美在线视频免费播放| 久久在线观看视频| 欧美三级欧美一级| 99国产精品99久久久久久粉嫩| 久久黄色小说| 极品av少妇一区二区| 亚洲午夜三级在线| 久久久欧美精品sm网站| 国产精品一区二区a| 宅男噜噜噜66一区二区66| 久久久噜噜噜久久久| 久久精品视频在线免费观看| 欧美性片在线观看| 亚洲国产日韩欧美综合久久| 国产精品九色蝌蚪自拍| 国产精品v欧美精品v日本精品动漫| 久久一区二区三区av| 国产精品国产三级国产aⅴ入口| 国产精品豆花视频| 欧美国产成人在线| 国产日韩精品综合网站| 国产精品免费网站| 久久er精品视频| 噜噜噜噜噜久久久久久91| 亚洲美女中出| 亚洲黄色成人网| 激情综合激情| 久久久久久久久久久久久9999| 亚洲区一区二区三区| 欧美一区二区三区在线观看视频| 午夜日韩av| 亚洲欧洲一区二区天堂久久| 亚洲男女自偷自拍图片另类| 久久久国际精品| 亚洲精品五月天| 欧美一级一区| 亚洲第一搞黄网站| 狠狠v欧美v日韩v亚洲ⅴ| 久久电影一区| 亚洲精品中文字幕女同| 欧美视频免费在线观看| 国产亚洲精品一区二区| 久久九九久精品国产免费直播| 亚洲精品视频在线观看网站| 欧美专区福利在线| 欧美日韩精品一区二区在线播放| 亚洲精品一区二区三区99| 亚洲高清视频在线| 国产精品免费一区二区三区在线观看| 红桃视频成人| 久久久国产亚洲精品| 噜噜噜久久亚洲精品国产品小说| 欧美三级在线| 亚洲高清三级视频| 久久网站热最新地址| 日韩亚洲综合在线| 国产精品久久一级| 欧美日韩p片| 欧美偷拍另类| 亚洲欧美日韩第一区| 欧美精品在线视频| 最新成人av在线| 欧美在线免费一级片| 国产女主播视频一区二区| 99亚洲视频| 欧美视频专区一二在线观看| 欧美成人免费在线视频| 久久视频在线免费观看| 国产亚洲精品aa午夜观看| 国产香蕉97碰碰久久人人| 免费在线国产精品| 亚洲中无吗在线| 欧美精品在线网站| 欧美一二三区在线观看| 亚洲成人直播| 欧美日韩精品免费看| 亚洲欧美另类在线观看| 欧美剧在线免费观看网站| 亚洲专区国产精品| 牛夜精品久久久久久久99黑人| 欧美精品在线极品| 国产精品久久久久久久久免费樱桃| 国产精品久久久久一区二区| 夜夜嗨网站十八久久| 欧美三级小说| 伊人精品在线| 免费观看成人| 欧美午夜电影在线| 国产日韩欧美自拍| 久久亚洲国产精品日日av夜夜| 国产精品激情电影| 日韩视频在线一区| 揄拍成人国产精品视频| 欧美日韩综合网| 99国产精品自拍| 欧美激情免费在线| 国产精品v日韩精品v欧美精品网站| 影音先锋亚洲电影| 伊人久久噜噜噜躁狠狠躁| 欧美另类在线播放| 一本色道久久综合亚洲精品小说| 美女尤物久久精品| 亚洲香蕉伊综合在人在线视看| 欧美极品欧美精品欧美视频| 国产偷国产偷亚洲高清97cao| 久久精品噜噜噜成人av农村| 亚洲四色影视在线观看| 国产精品美女久久久久久久| 久久精品72免费观看| 久久夜色精品一区| 久久久91精品| 激情综合色丁香一区二区| 国产欧美日韩麻豆91| 久久久久久久一区二区| 国产综合久久久久影院| 在线观看亚洲视频| 亚洲综合精品四区| 国产精品一区二区在线| 久久综合色8888| 在线免费日韩片| 欧美成人免费全部| 欧美激情综合| 亚洲午夜一区二区| 欧美高清你懂得| 亚洲欧美日韩天堂| 一区二区不卡在线视频 午夜欧美不卡在| 国产精品美女999| 99综合在线| 国产精品一区视频| 亚洲免费在线| 亚洲国产欧美日韩精品| 欧美国产日韩在线| 国产精品久久久久一区二区| 欧美视频不卡| 久久久久九九视频| 国产女人水真多18毛片18精品视频| 亚洲激情影视| 国产精品久久久久av| 欧美大秀在线观看| 亚洲精品看片| 亚洲毛片播放| 亚洲国产精品成人综合色在线婷婷| 一区二区三区导航| 欧美一级片久久久久久久| 乱中年女人伦av一区二区| 激情视频一区二区三区| 国产精品日韩欧美大师| 精品二区久久| 狠狠狠色丁香婷婷综合久久五月| 亚洲人成免费| 亚洲一区国产视频| 另类尿喷潮videofree| 国产亚洲精品久久久| 国产精品成人va在线观看| 国产欧美日韩精品在线| 国产精品午夜春色av| 在线欧美日韩| 欧美日韩国产美女| 国产亚洲人成网站在线观看| 伊人成人在线视频| 欧美日韩人人澡狠狠躁视频| 久久www成人_看片免费不卡| 国产精品少妇自拍| 欧美日韩成人网| 国产精品热久久久久夜色精品三区| 亚洲精品护士| 国产精品v亚洲精品v日韩精品| 久久在线免费| 一本一道久久综合狠狠老精东影业| 欧美大片在线观看| 亚洲精品视频一区二区三区| 狠狠色综合网| 亚洲国产美女精品久久久久∴| 亚洲黄页视频免费观看| 亚洲欧美在线高清| 美女精品国产| 久久精品成人欧美大片古装| 亚洲女人天堂成人av在线| 亚洲九九爱视频| 亚洲精品视频免费在线观看| 99v久久综合狠狠综合久久| 欧美精品亚洲一区二区在线播放| 午夜亚洲性色福利视频| 亚洲视频中文| 免费成人av资源网| 欧美成人一区二区三区在线观看| 久久精品免费观看| 国产精品久线观看视频| 亚洲免费观看视频| 欧美日韩午夜在线视频| 久久九九免费视频| 欧美xart系列高清| 欧美日韩国产高清视频| 国产婷婷色一区二区三区| 欧美噜噜久久久xxx| 欧美激情免费观看| 国产精品剧情在线亚洲| 亚洲欧美日韩一区二区三区在线观看| 亚洲欧美国产视频| 亚洲激情另类| 亚洲精品网址在线观看| 中国日韩欧美久久久久久久久| 欧美一区=区| 99精品欧美一区二区三区综合在线| 欧美亚洲综合在线| 国模精品娜娜一二三区| 夜夜嗨一区二区| 一本大道久久a久久精二百| 狠狠狠色丁香婷婷综合激情| 欧美日韩国产成人在线免费| 国产亚洲视频在线| 蜜桃久久av一区| 欧美日本一道本在线视频| 国产精品一二三四| 欧美在线你懂的| 老司机一区二区| 久久一区二区三区四区五区| 欧美一区二区黄色| 亚洲精品在线免费| 欧美特黄一区| 亚洲午夜av| 亚洲在线观看免费| 影音先锋亚洲电影| 久久久久国产一区二区| 国产精品欧美久久| 久久综合色婷婷| 亚洲精品女av网站| 红杏aⅴ成人免费视频| 亚洲人成在线观看网站高清| 久久久噜噜噜久久中文字幕色伊伊| 欧美日本一区二区三区| 久久夜精品va视频免费观看| 一区二区不卡在线视频 午夜欧美不卡'| 久久精品九九| 欧美成人精品激情在线观看| 欧美精品一区二区三区蜜桃| 午夜在线一区| 亚洲欧美中文字幕| 欧美黑人国产人伦爽爽爽| 亚洲免费av片| 狼狼综合久久久久综合网| 欧美日韩一区在线观看视频| 欧美香蕉视频| 一区二区三区日韩精品视频| 亚洲精品免费电影| 亚洲激情黄色| 99精品欧美一区二区三区综合在线| 欧美视频中文字幕| 亚洲网在线观看| 欧美一区二区三区在| 国产九九视频一区二区三区| 亚洲国产天堂久久综合网| 国产精品揄拍一区二区| 亚洲视频一区| 亚洲视频欧洲视频| 欧美日韩精品一本二本三本| 中文国产亚洲喷潮| 欧美日韩中字| 136国产福利精品导航| 亚洲人在线视频| 欧美国产精品人人做人人爱| 久久久国产一区二区三区| 久久青青草原一区二区| 国产美女精品在线| 精品不卡视频| 欧美日韩大片| 欧美另类久久久品| 亚洲国产精品久久久久婷婷884| 一本综合久久| 模特精品在线| 欧美午夜精品电影| 激情成人亚洲| 欧美.日韩.国产.一区.二区| 欧美在线一区二区三区| 欧美日韩福利在线观看| 欧美中文字幕| 老牛国产精品一区的观看方式| 欧美另类变人与禽xxxxx| 亚洲欧美国内爽妇网| 亚洲激情在线| 99精品久久| 欧美一区=区| 亚洲午夜一区| 欧美日本一区二区三区| 久久gogo国模裸体人体| 中文成人激情娱乐网| 亚洲视频在线观看| 亚洲国产黄色片| 在线亚洲高清视频| 99热这里只有精品8| 女女同性女同一区二区三区91| 亚洲国产第一| 在线成人国产| 亚洲电影天堂av| 久久久视频精品| 日韩午夜在线观看视频| 一区二区三区 在线观看视频| 亚洲国产aⅴ天堂久久| 日韩一区二区精品| 亚洲精品视频在线| 午夜精品一区二区三区在线| 最新国产成人av网站网址麻豆| 午夜精品视频一区| 亚洲制服av| 一本色道久久综合亚洲91| 国内不卡一区二区三区| 欧美国产日韩一区二区| 亚洲区中文字幕| 在线亚洲电影| 中国日韩欧美久久久久久久久|