《電子技術應用》
您所在的位置:首頁 > 其他 > 業界動態 > 數據倉庫中重復記錄清理算法研究

數據倉庫中重復記錄清理算法研究

2009-06-03
作者:鐘嘉慶 ,張義芳,盧志剛

??? 摘 要:針對重復記錄清理中的“排序、識別、合并”算法存在的問題進行了改進。改進后的重復記錄清理算法在保證記錄匹配率的情況下有效地提高了記錄排序的效率;在重復記錄識別時,考慮了匹配字段的文字數量、在2個字段中出現的頻率、在記錄中各字段的重要性(權重)、中文字段的語義和語義重點偏后等5個因素;合并重復記錄時采用了聚類和實用算法并用的策略,有效地提高了數據倉庫中重復記錄清理算法的準確性和健壯性。
??? 關鍵詞:數據清理;重復記錄清理;重復記錄識別;數據倉庫

?

??? 目前,國內外已經有一些對數據清理的研究,由于中文數據之間沒有以空格分割,這在識別上帶來了一定的難度,因此大部分的研究都只針對英文的數據清理,涉及中文數據清理的研究較少。重復數據清理技術旨在清除冗余的備份數據、確保只有“獨有的”數據存儲在磁盤上,即容量優化保護技術。重復數據清理技術的關鍵是只保留唯一的數據實例,有效地解決了“容量膨脹”的效率問題[1]。
??? 從數據清理算法研究內容上講,重復數據清除算法可分為兩類:一類是數據清理的記錄間算法,一類是數據清理的記錄內算法。目前,研究人員對第一類算法研究得比較多,如:滑動窗口算法[2]、優先隊列算法[3]等;對第二類算法的研究一般都是直接引用字符串相似匹配算法[4],這種算法的缺點是沒有考慮到字段不等長、中文字段語義重點偏后等重復記錄的特點。
1 重復記錄排序算法的改進
??? 重復記錄清理的直觀方法是將每一個記錄與數據庫中其余記錄逐個進行對比,該方法的識別精度非常高,但是在數據量較大的情況時,其處理時間會讓用戶難以忍受。鄰近排序算法(SNM)[5]是目前常用的一種排序方法,它有效地克服了直觀方法的缺點,大大提高了重復記錄的匹配效率和重復記錄清理的完成效率。但是,SNM算法存在其匹配結果嚴重依賴于排序關鍵字的選擇和滑動窗口大小W的選取很難控制等缺陷。由于在SNM算法里記錄只能與窗口內的紀錄進行比較,當W太小時或排序的關鍵字選擇不當時,會造成漏配;而當W太大時又會產生很多沒有必要的比較,因此恰當的W無論如何都無法得到。
??? 本節針對SNM算法存在的上述缺陷作了改進,改進后算法的基本思想是使用相對較小的滑動窗口,選擇數據庫的一個關鍵字執行SNM算法,存儲本次排序后相似記錄的序號,然后依次選擇數據庫中的其他關鍵字獨立地執行SNM算法,并在每次執行完畢后把此次執行結構中新增的相似記錄號添加到相似記錄存儲表中得到所有可能重復記錄的序號,然后對對這些可能的重復記錄采用直觀方法進行清理。
??? 改進后的SNM算法的偽碼描述如下:
??? while(還有沒用過的關鍵字)
??? do{
??? 為記錄集TS中的記錄選擇該趟排序需要的排序關
??? 鍵字;
??? 根據排序關鍵字對TS中的記錄進行排序;
??? 滑動窗口W從TS的第一個記錄開始滑動;
??? while(W沒有滑動到TS的尾部)
??? do{
??? 初始化執行對比的次數n=0;
??? while(執行的對比次數n<|W|)
??? do{
??? 新進入滑動窗口的記錄與第n+1個進入窗口的記錄進行重復記錄比較;
??? if(比較的記錄為相似重復記錄)
??? {
??? 把相似重復記錄的記錄號添加到相似記錄存儲表;
??? }
??? 執行n+1;
??? }
??? 向下滑動窗口;
??? }
??? 對相似記錄存儲表中的記錄采用直觀方法進行比較,記錄相似重復記錄聚類;
??? }
2 識別算法" title="重復記錄識別算法">重復記錄識別算法的改進
??? 記錄排好序后,下一個要解決的問題是如何判斷兩條記錄是否為相似重復記錄。識別重復記錄首先需要進行字段相似度的計算,然后再根據字段的權重進行加權和計算后得到記錄的相似度,最后進行記錄相似度和所設定閥值的比較,如果兩條記錄的相似度小于閥值,則認為這兩條記錄匹配,否則認為是兩個不同的記錄?;谙嗨贫鹊闹貜陀涗涀R別算法[1]是最常用的一種重復記錄識別方法,但是恰當閾值的設定仍是一個沒有解決的難題。若閾值設定的過小,則容易遺漏某些相似的重復記錄,從而降低了算法的匹配率;若閾值設定的過大,則容易將某些不同的記錄誤判為相似重復記錄,從而降低了算法的正確率。此算法對記錄的識別僅使用一個單一的閾值過于絕對,且沒有考慮文中語句語義偏后的特點,無法滿足實際情況的要求。
??? 下面針對基于相似度的重復記錄識別算法存在的上述問題對此算法進行了適當改進,給出了一種基于雙閾值[6]位置權重[7]的語義重復記錄識別算法。本算法的具體描述如下:對記錄相似度設定一大一小兩個閾值δup和δlow,當通過位置權重識別法計算出當前兩條記錄的相似度大于δup,則直接判定它們是重復記錄;若計算出的相似度小于δlow,則可以判定它們是兩個不同的記錄;而對于相似度在δup和δlow之間的兩條記錄,則不能直接確定它們是否重復或不重復,需要通過語義重復識別法[3],[8]進行判定;對仍無法判定的記錄則需人工進行處理。根據參考文獻[9]一般閾值取0.37和0.68,為了提高準確率本文第一次相似度計算取閾值為0.35和0.7。
??? 簡單的字段識別法只考慮了字段之間的字符的匹配度,而忽略了匹配字符所在的位置(稱為匹配序)。由于大部分中文尤其是特定領域的專業術語的語義重點往往集中在字段的后半部分字符串中,通過調整字段的匹配度和匹配序的權重(記作α和β,滿足α+β=1),則可以在很大程度上提高字段識別的準確率。具體定義如下:
???

??? 其中,f1和f2分別為兩個中文字段(如果字段中有英文字母,則將連續的英文字母視作一個漢字),m和n分別為f1和f2的字數,c為f1和f2的識別字符數量,L1(i)和L2(i)分別為識別字符i在f1和f2中的匹配序。匹配序按照從左到右的順序,從1開始自然數遞增的方式計算,而α和β則一般根據黃金分割律來確定,分別取0.6和0.4[10]。例如,f1=“燕大電氣工程學院”、f2=“燕山大學電氣工程學院”,下面通過位置權重識別法判定S1和S2是否為重復字段。和的匹配字符為“燕”、“大”、“電”、“氣”、“工”、“程”、“學”、“院”,它們在f1中的匹配序依次為“1、2、3、4、5、6、7、8”,在f2中的匹配序依次為“1、3、5、6、7、8、9、10”。那么f1和f2的語義相似度為:
???
??? 基于語義距離的相似度識別方法體現了字段內部的結構和詞語之間語義的相互作用關系,而編輯距離由于同義詞詞林的應用可以兼顧同義詞之間的替換,并體現了組成句子的每個詞深層的語義信息?;谡Z義距離的相似度識別算法的基本思路是:首先,利用參考文獻[11]中介紹的骨架依存樹思想分析字段的語法結構,得到字段中所有的核心詞和直接依存于它們的有效詞組成的搭配對(有效詞定義為動詞、名詞和形容詞,它是由分詞后的詞性標注決定的),然后再進行語義距離(為兩個字段有效搭配對的最短距離)的相似度計算,最后根據閾值進行重復識別判斷。
??? 設f1和f2為需要識別的兩字段,f1包含的詞為f11、f12、…、f1m,f2包含的詞為f21、f22、…、f2n,則詞f1i(1≤i≤m)和f2j(1≤j≤n)之間的相似度可用sim( f1, f2)來表示,這樣就得到兩個字段中任意搭配對的相似度,f1和f2兩字段之間的語義相似度sim( f1, f2)的計算公式如下:
???
??? 使用雙閾值位置權重的語義識別法,雖然在一定程度上增加了用戶的工作量,降低了算法的效率,但同時提高了算法的正確性和健壯性;而把位置權重和基于語義距離的相似度識別兩種方法結合起來,揚長避短、互為補充,根據這些特征計算字段之間的相似度,可以使本重復識別算法獲得很高的準確率。通過以上分析可知,本節對重復識別算法的改進是有效的、值得的。
3 重復記錄合并算法的改進
??? 在相似重復記錄的識別完成以后,下一步要做的工作就是選擇合適的方法合并識別出來的相似重復記錄。參考文獻[8]、[12]介紹了目前常用的多種重復記錄合并方法,它們在合并方面各有利弊,單獨使用都無法得到很好的效果,下面對此進行改進。
??? 針對上述缺點,本節采用實用兼人工策略,給出了一種實用和聚類算法結合的合并算法。從一組相似重復記錄中選擇與其它記錄匹配次數最多的一條記錄進行保留,如果多個不同的記錄具有相同的匹配率,則對這些相似記錄進行聚類(會通過屏幕把聚類結果返回給用戶),由用戶人工確定要保留的記錄,并把其他重復記錄從數據庫中刪除。
??? 針對現有的重復記錄清理策略存在的問題,分析了其原因,找出了現有重復記錄清理策略里記錄排序、重復記錄識別、重復記錄合并各步驟中所用算法存在的缺陷,給出了各自的改進方案,并通過算法分析和舉例說明證明了改進的合理性。改進后的重復記錄清理算法可以有效地提高判斷質量,減小誤判率,縮短了重復記錄處理時間,很好地保障了數據倉庫數據的質量。
參考文獻
[1]?LIN De Kang. An Information-theoretic Definition of Similarity[C]//Proc. Of the 15th Intermational Conf. on Machine Learning. San Francisco,CA,USA:Morgan Kaufmann,1998.
[2]?MONGE A. E, ELKAN? C. An Efficient Domain-Independent Algorithm for Detecting Approximately Duplicate Database Records.DMKD,1997.
[3]?GUTTMAN A. R-trees? a dynamic index structure for spatial searching Proc. ACM SIGMOD Int Conf on Management of Data, 1984,47-57.
[4]?馮玉才,桂浩,李華,等. 數據分析和清理中相關算法研究[J]. 小型微型計算機系統, 2005,26(6):1018-1022.
[5] HEMANDEZ, M? A, STOLFO? S? J. The Merge/Purge Problem for Large Database[C].In SIGMOD Conference,1995:127-138.
[6]?洪圓,孫未未,施伯樂. 一種使用雙閥值的數據倉庫環境下重復記錄消除算法[J]. 計算機工程與應用,2005,1:168-170.
[7]?張雪英,閭國年. 基于字面相似度的地理信息分類體系自動轉換方法[J].遙感學報,2008,12(3):433-440.
[8] 劉寶艷,林鴻飛,趙晶.基于改進編輯距離和依存文法的漢語句子相似度計算[J].計算機應用與軟件,2008,25(7):33-34.
[9]?陳偉. 數據清理關鍵技術及其軟件平臺的研究與應用[D]. 南京航空航天大學,2004.
[10]?王源,吳小濱,涂從文,等.后控制規范的計算機處理[J].現代圖書情報技術,1993,2:4-7.
[11]?趙妍妍,秦兵,劉挺,等. 基于多特征融合的句子相似度計算 [A]. 全國第八屆計算語言學聯合學術會議(JSCL-2005)論文集[C],2006.
[12]?DAVIDSON? S? B,? KOSKY? A? S. Specifying Database Transformations in WOL[J].Data Engineering, 1999 ,22(1):25-31.

本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          欧美日韩国产综合久久| 在线精品观看| 欧美成人免费视频| 久久五月天婷婷| 国产精品欧美一区喷水| 国产精品嫩草久久久久| 欧美在线资源| 国产一区二区三区观看| 亚洲永久网站| 亚洲欧美日本另类| 国产精品久久久久久久久免费樱桃| 国语精品一区| 黑丝一区二区三区| 亚洲日本免费电影| 欧美电影免费网站| 免费成人你懂的| 免费在线视频一区| 激情综合亚洲| 狠狠狠色丁香婷婷综合久久五月| 国产日韩欧美制服另类| 久久婷婷久久一区二区三区| 欧美一区二区在线视频| 一本大道久久a久久精品综合| 国产欧美一区二区精品秋霞影院| 欧美一区二区私人影院日本| 一区二区欧美日韩视频| 亚洲无人区一区| 久久超碰97人人做人人爱| 国产精品久久久久久久久久直播| 国产一区二区三区四区| 影音先锋久久久| 国产精品久久久爽爽爽麻豆色哟哟| 欧美高清视频在线播放| 国产女人aaa级久久久级| 欧美午夜电影在线观看| 久久精品国产清高在天天线| 亚洲欧洲精品成人久久奇米网| 欧美日韩精品久久久| 亚洲一区二区免费视频| 欧美大胆人体视频| 亚洲一区二区三区免费视频| 美日韩精品免费观看视频| 国产精品每日更新在线播放网址| 欧美激情第二页| 国产欧美日韩精品在线| 欧美激情亚洲| 亚洲性人人天天夜夜摸| 欧美一区二区三区视频在线| 国产一区在线视频| 欧美视频中文字幕| 欧美在线观看一区二区三区| 欧美大片在线观看一区二区| 亚洲午夜精品久久| 日韩视频专区| 欧美二区乱c少妇| 欧美日韩免费观看中文| 午夜精品国产精品大乳美女| 日韩天堂av| 欧美一区二区日韩一区二区| 欧美国产第一页| 亚洲视频日本| 亚洲国产精品尤物yw在线观看| 好看的av在线不卡观看| 欧美夫妇交换俱乐部在线观看| 国产日韩欧美精品在线| 亚洲欧美另类在线| 国产精品美女一区二区| 久久久久久999| 蜜臀av在线播放一区二区三区| 这里只有精品在线播放| 狠狠噜噜久久| 欧美日本在线一区| 一本一道久久综合狠狠老精东影业| 国产精品免费网站| 欧美1区2区视频| 久久精品三级| 久久综合九色99| 亚洲欧美日韩一区二区| 欧美高清日韩| 国产精品日韩一区二区| 国产一区在线看| 亚洲一区在线免费观看| 国产精品日韩在线一区| 狠狠色噜噜狠狠狠狠色吗综合| 久久久亚洲影院你懂的| 欧美精品国产精品日韩精品| 欧美激情综合五月色丁香小说| 亚洲欧美综合国产精品一区| 亚洲国产精品成人va在线观看| 欧美一区二区三区免费大片| 韩国精品一区二区三区| 免费日韩精品中文字幕视频在线| 欧美日韩岛国| 一区二区三区黄色| 欧美三级小说| 一色屋精品视频免费看| 国产精品草草| 久久久久久久久久久久久久一区| 亚洲人成在线观看网站高清| 亚洲国产精品成人综合色在线婷婷| 欧美日韩成人免费| 欧美日韩xxxxx| 亚洲大胆人体视频| 极品av少妇一区二区| 亚洲国产精品成人va在线观看| 国产精品久久久久久久久免费樱桃| 一区在线免费| 欧美连裤袜在线视频| 一区二区三区在线观看视频| 亚洲天堂免费在线观看视频| 国产日韩精品一区二区三区在线| 国产精品劲爆视频| 欧美激情综合色| 亚洲精品欧美一区二区三区| 久久久精品国产99久久精品芒果| 欧美精品一区二| 免费观看日韩av| 亚洲欧洲精品一区二区三区波多野1战4| 亚洲国产精品嫩草影院| 国产亚洲va综合人人澡精品| 亚洲欧美日韩精品在线| 一区二区三区www| 亚洲综合久久久久| 老司机67194精品线观看| 欧美精品一区二区视频| 久久综合狠狠综合久久综青草| 久久综合九色综合欧美狠狠| 久久不射2019中文字幕| 亚洲欧洲视频在线| 篠田优中文在线播放第一区| 麻豆精品网站| 久久精品夜夜夜夜久久| 久久全国免费视频| 西西裸体人体做爰大胆久久久| 欧美性猛交视频| 欧美99在线视频观看| 欧美aaaaaaaa牛牛影院| 欧美成人综合一区| 午夜精品一区二区三区四区| 久久精品五月| 狠狠色狠狠色综合日日五| 国产精品私人影院| 欧美大片va欧美在线播放| 136国产福利精品导航| 欧美在线高清视频| 久久久久久久久蜜桃| 噜噜噜在线观看免费视频日韩| 午夜伦欧美伦电影理论片| 欧美日韩另类在线| 在线中文字幕不卡| 亚洲国产清纯| 久久精品成人一区二区三区蜜臀| 在线高清一区| 夜夜嗨av色一区二区不卡| 欧美精品一区二区在线播放| 国产精品久久国产精麻豆99网站| 免费在线播放第一区高清av| 久久这里只精品最新地址| 欧美日韩国产经典色站一区二区三区| 国产人妖伪娘一区91| 国产精品黄页免费高清在线观看| 性色一区二区| 国产在线不卡视频| 99re8这里有精品热视频免费| 亚洲少妇一区| 久久精品亚洲一区| 国产日韩欧美在线一区| 久久久夜色精品亚洲| 欧美88av| 国产欧美大片| 欧美与黑人午夜性猛交久久久| 欧美日韩国产大片| 欧美一区二区三区免费视频| 国产欧美日韩免费| 国产深夜精品福利| 久久riav二区三区| 免费美女久久99| 久久狠狠久久综合桃花| 久久久久久色| 欧美日韩一级大片网址| 国产性猛交xxxx免费看久久| 99香蕉国产精品偷在线观看| 欧美日韩成人网| 欧美视频在线视频| 欧美理论电影在线播放| 亚洲一区二区三区午夜| 欧美激情一二三区| 欧美视频日韩视频在线观看| 久久久九九九九| 国产欧美一区在线| 亚洲一区二区三| 巨乳诱惑日韩免费av| 欧美老女人xx| 日韩午夜电影av| 亚洲综合首页| 国产毛片精品视频| 国产一二精品视频| 亚洲一级黄色| 麻豆久久婷婷| 国产在线精品成人一区二区三区| 国产精品久久久久国产a级| 欧美亚洲在线| 一区二区亚洲精品| 亚洲日本va午夜在线影院| 亚洲一区二区三区中文字幕在线| 亚洲视频一起| 欧美天天影院| 欧美看片网站| 国产精品人人爽人人做我的可爱| 亚洲一区免费在线观看| 亚洲视频电影图片偷拍一区| 欧美与欧洲交xxxx免费观看| 在线观看日产精品| 亚洲视频在线观看一区| 欧美日韩不卡在线| 久久久噜噜噜| 国产手机视频一区二区| 国产精品一国产精品k频道56| 国产日产欧美精品| 国产精品久久久久久影院8一贰佰| 国产免费观看久久| 欧美日本高清一区| 一区二区三区日韩欧美精品| 99视频+国产日韩欧美| 国产日韩欧美制服另类| 国产精品自拍视频| 亚洲精品视频在线播放| 99国产成+人+综合+亚洲欧美| 99香蕉国产精品偷在线观看| 国产一区二区三区直播精品电影| 亚洲小说欧美另类社区| 欧美jizzhd精品欧美喷水| 国产精品区一区二区三| 韩日欧美一区二区三区| 亚洲视频免费在线观看| 久久国产66| 国产婷婷一区二区| 欧美日本国产一区| 国产精品成人av性教育| 久久九九久精品国产免费直播| 一区二区三区|亚洲午夜| 免费成人高清视频| 亚洲免费观看高清在线观看| 老司机免费视频一区二区三区| 欧美激情视频一区二区三区不卡| 亚洲一区二区三区精品在线| 欧美日韩一区国产| 亚洲激情在线视频| 影音先锋久久精品| 午夜视频在线观看一区二区| 亚洲精品国产精品国自产观看浪潮| 激情综合亚洲| 欧美国产欧美亚洲国产日韩mv天天看完整| 亚洲欧美日本国产专区一区| 一本久久a久久免费精品不卡| 香蕉久久精品日日躁夜夜躁| 亚洲欧洲一二三| 欧美日韩伦理在线免费| 久久午夜影视| 欧美高清视频一区二区| 欧美在线一二三| 99国产精品99久久久久久| 国产麻豆一精品一av一免费| 国产一区二区三区直播精品电影| 欧美一区二区三区另类| 国产一区二区| 久久人人爽人人爽爽久久| 欧美日韩一区在线观看视频| 黄色成人精品网站| 欧美在线亚洲综合一区| 国产情人节一区| 在线播放亚洲| 欧美一区二区视频观看视频| 国产精品日韩久久久久| 亚洲综合国产激情另类一区| 欧美精品一区视频| 一本一本久久a久久精品综合麻豆| 亚洲国产成人久久综合| 亚洲成人在线视频播放| 欧美人在线观看| 一区二区三区欧美在线| 欧美jizzhd精品欧美喷水| 精品va天堂亚洲国产| 亚洲一区二三| 亚洲一区在线免费观看| 亚洲欧美激情精品一区二区| 国产精品久久久久久久9999| 久久久91精品国产一区二区精品| 久久精品国产在热久久| 免费试看一区| 欧美日韩和欧美的一区二区| 国产在线成人| 精品二区视频| 国产精品一二三四区| 亚洲国产高清aⅴ视频| 欧美午夜不卡在线观看免费| 国产精品丝袜久久久久久app| 99视频精品全国免费| 美女国产一区| 美国成人直播| 免费一级欧美片在线播放| 亚洲线精品一区二区三区八戒| 欧美成人福利视频| 精品91免费| 夜夜精品视频一区二区| 欧美精品一区二区三区久久久竹菊| 亚洲人体一区| 国产麻豆精品在线观看| 欧美激情在线狂野欧美精品| 欧美日韩 国产精品| 亚洲自拍偷拍麻豆| 午夜精品福利在线观看| 在线日本成人| 黄色日韩精品| 欧美激情久久久| 欧美大片一区| 欧美日韩国内自拍| 韩国成人福利片在线播放| 精品69视频一区二区三区| 久久久久久久97| 欧美激情女人20p| 国内在线观看一区二区三区| 欧美激情一区| 欧美日韩精品一区二区天天拍小说| 国产精品一区二区视频| 在线观看成人av电影| 牛牛精品成人免费视频| 六月婷婷久久|