《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于Hadoop的小文件量化方法研究
基于Hadoop的小文件量化方法研究
2014年微型機與應用第13期
譚躍生,趙玉龍,王靜宇
內蒙古科技大學 信息工程學院,內蒙古 包頭
摘要: Hadoop[1]是一個具有高擴展性、高可靠性、高容錯性和高效性的開源軟件系統,它已成為互聯網、金融、生物信息學等領域進行大數據分析和處理的代表性云計算平臺。它由Hadoop Distributed File System(HDFS)[2]和MapReduce[3]兩部分組成,其中,MapReduce主要用來處理數據密集型數據,而HDFS則主要負責大數據的存儲。
Abstract:
Key words :

  摘  要: 針對目前Hadoop平臺不能高效處理海量小文件而出現的小文件問題,提出一種基于曲線擬合最小二乘法的確定Hadoop平臺下何為小文件的方法。該方法首先確定小文件訪問時間的量化方法,然后采用訪問時間作為確立何為小文件的影響因子,通過對不同數據集大小的不同訪問時間的實驗,最終結合線性擬合的相關知識找到了小文件大小的量化方法。

  關鍵詞: Hadoop;小文件問題;曲線擬合的最小二乘法;線性擬合

  Hadoop[1]是一個具有高擴展性、高可靠性、高容錯性和高效性的開源軟件系統,它已成為互聯網、金融、生物信息學等領域進行大數據分析和處理的代表性云計算平臺。它由Hadoop Distributed File System(HDFS)[2]和MapReduce[3]兩部分組成,其中,MapReduce主要用來處理數據密集型數據,而HDFS則主要負責大數據的存儲。

  HDFS的產生得益于Google File System(GFS)[4],它遵循一次寫、多次讀的流數據訪問模式,采用Master-Slave架構,其中的Master,即NameNode,作為單一的節點來管理整個文件系統中所存儲數據的元數據。為了快速響應客戶端的讀寫請求,NameNode將文件的元數據存放在內存當中。HDFS設計之初就是為了處理海量大文件的,因此,它能高效地存儲和處理海量大文件的讀寫請求。然而,HDFS不能高效地處理海量小文件,小文件問題[5]由此產生。目前,學術界關注的小文件問題有:(1)海量小文件耗費主節點內存;(2)海量小文件的I/O效率低,沒有一種優化機制來提高I/O性能;(3)HDFS下沒有明確的能夠區分何為小文件的大小文件分界點;(4)海量小文件的放置未考慮文件相關性[6]。針對大小文件的分界點問題提出一種確定何為小文件的方法。在深入研究HDFS存儲和訪問機制的基礎上,經過海量小文件訪問、指數擬合和線性擬合等過程,確定了大小文件的臨界點。

  1 相關研究

  Hadoop集群分為NameNode和DataNode兩部分,NameNode負責HDFS中文件元數據的存放和對客戶端訪問的控制,DataNode則負責提供塊存儲,為客戶端的I/O請求提供服務,并根據NameNode的指令執行塊的讀寫操作。其中,NameNode為了向客戶端高效地提供元數據信息,將每個文件的元數據信息都存放在內存當中,包括文件名、相應文件對應的塊號以及持有這些塊的DataNode信息。因此,當客戶端請求創建、讀、寫和刪除等操作時,客戶端都需要先向主節點查詢元數據信息,然后跟相應的數據節點交互,執行需要的操作。

  然而,NameNode節點是單一的,其對應的內存大小也是固定的,當一個大于文件塊大小的文件存儲到HDFS中時,產生的元數據僅僅由文件大小決定,但當海量小文件存儲到HDFS中時,每個小文件都會形成一個文件塊,因此會產生相當大的元數據信息,例如,假設一個文件的文件塊會產生150 B的元數據信息,對于1GB的文件,會被分成16個大小為64 MB的塊,此時會產生2.4KB的元數據,然而,對于10 600個大小為100 KB的文件(總大小1 GB),這種情況下將會產生1.5 MB的元數據信息。因此,海量小文件會占用大量的主節點內存,進而當處理海量小文件時,單一的主節點內存就會成為瓶頸,進而影響小文件的存儲和訪問性能,小文件問題由此而生。

  參考文獻[7]指出小文件就是那些文件大小明顯小于HDFS默認塊大小64 MB的文件,海量小文件的產生會限制許多包含大量小文件的應用獲益于Hadoop平臺。Liu等人[8]針對包含大量小文件的典型應用WebGIS,提出了一種基于HDFS的提升小文件I/O性能的方法?;舅枷刖褪峭ㄟ^小文件合并成大文件來減少文件的數目,然后為每個文件建立索引,同時考慮WebGIS的文件相關特征。實驗表明,該方法確實能夠提高Hadoop處理WebGIS下相關小文件的處理性能,但它們將文件大小小于16 MB的文件作為小文件,并且沒有具體的理論分析和實驗來證明16 MB就是大小文件的臨界值。

  2 小文件量化過程

  2.1 Hadoop下小文件訪問時間量化

  當從HDFS中訪問一個文件時,訪問過程如下。

 ?。?)客戶端通過初始化RPC(Remote Procedure Calls)[9]請求向NameNode發送讀指令,其時間開銷記為tCN;

 ?。?)NameNode在內存中查詢相應文件的元數據,時間開銷記為tmetadata;

 ?。?)所需文件的元數據返回到客戶端,時間開銷記為tNC;

 ?。?)客戶端向相關DataNode發送讀取指令,時間開銷記為tCD;

  (5)DataNode從磁盤中取出所需文件的文件塊,時間開銷記為tdisk;

 ?。?)所需文件的相應文件塊返回到客戶端,所需時間記為tnetwork。

  其中,因為tCN和tCD是發送指令所帶來的開銷,通常作為常量;同時,由于元數據非常小,tmetadata也可以當做常量;tnetwork與所讀取文件的長度(L)和網絡傳輸速度(V)有關,因此,它可以表示為δnetwork(L/V)。

  假設有N個不同的小文件,文件長度分別表示為L1,L2,L3,…,Ln,那么N個文件的訪問時間可以表示為:

  1.jpg

  其中,因為對于小文件來講,每一個文件僅僅有一個塊,所以讀取塊數和文件的個數是相等的,即M和N相等,那么式(1)還可表示為:

  2.jpg

  2.2 文件隨機訪問算法

  文件隨機訪問算法通過N來控制隨機數的產生個數,進而來控制隨機訪問的文件,然后調用HDFS提供的訪問API來獲取分布式文件系統中存放的文件,最終返回訪問指定文件個數的文件所需要的時間,具體算法偽代碼如下。

  Input:SmallFile

  Output:AccessTime

  Create a collection//創建一個集合

  getConfiguration()//獲取HDFS必要的文件配置信息

  for(int i=0;i<N;i++){

  //N為隨機下載的文件個數

  int j=getRandom()//獲取一個隨機數

  add(j)//將隨機數添加到集合中

  }

  collectionIterator();//創建一個迭代器

  Long t1=getStarttime()

  while(iterator.hasNextNumber){

  getNextValue()//獲取迭代器中的隨機數

  Path src//HDFS中符合相應隨機數的文件路徑

  Path dst//訪問隨機文件的存放路徑

  copyToLocalFile(src,dst)

  }

  Close()//關閉分布式文件系統

  long t2=getStopTime()

  output(“AceessTime”,t2-t1)

  2.3 曲線擬合的最小二乘法

  若要求一個函數y=S*(x)與所給數據{(xi,yi),i=0,1,…,m}擬合,若記誤差δi=y-S*(xi)-yi(i=0,1,…,m),δ=(δ0,δ1,…,δm)T,設?漬0(x),?漬1(x),…,?漬n(x)是C[a,b]上線性無關函數族,在?漬=span{?漬0(x),?漬1(x),…,?漬n(x)}中找一個函數S*(x),使誤差平方和

  3.jpg

  以上就是一般的最小二乘逼近,用幾何語言說,就成為曲線擬合的最小二乘法[10]。

  3 實驗結果與分析

  3.1 實驗環境

  實驗所用Hadoop平臺包含6臺PC,其中1臺作為NameNode,其他5臺為DataNode,每臺機器的配置為:Intel Core 2(2.99 GHz)處理器,2 GB內存,160 GB硬盤。

  所有節點均連接在1.0 Gb/s的以太網中。每臺機器的軟件環境為:操作系統采用內核為3.5.0-25的Ubuntu 12.04,集群的Hadoop版本為1.1.2,Java版本是JDK 7.0。

  其中HDFS的默認副本數為3,塊大小默認為64 MB。

  3.2 數據集

  實驗所采用的數據集共有23個,數據集內容來自于China Daily的新聞稿,各個數據集分別命名為ds1,ds2,…ds23。每個數據集分別包含10 000個文件,數據集大小有0.5 MB~64 MB不等,具體分布情況如圖1所示。

001.jpg

  3.3 實驗方法

  分別將上述數據集上傳到空白的HDFS中,然后采用上文所提到的文件隨機訪問算法隨機獲取500個文件到本地文件系統,同時記錄下程序反饋的每個數據集的訪問時間。

  每個數據集的訪問時間測試分別進行7次,然后舍棄其中的兩個最大值和兩個最小值,剩余的3組值取平均,最后以平均值作為每個數據集的實驗所得訪問時間。通過這種方法來過濾掉因網絡擁塞或者其他未知因素導致的噪聲點。

  測得每組數據的平均訪問時間后,分別計算每組數據集的平均訪問速率,當HDFS默認塊大小為64 MB時,其訪問速率與文件大小在曲線擬合后的關系如圖2所示。

002.jpg

  根據圖2圖像的變化規律可知,小文件數據集的訪問速率在一定范圍內變化顯著,隨著數據集文件大小的增大,變化逐步趨于平緩。根據指數函數的特性,為了更好地觀察其變化規律,分別對x和y軸取對數,由圖3可明顯地看到前8個數據點在一條直線上,而除此之外的其他數據點在另外的直線上,然后采用線性擬合的方法,得到兩直線交點,進而得到對應直線交點的文件大小為4.38 MB。

004.jpg

003.jpg

  此外,針對dfs.blocksize默認塊大小為48 MB的情況也進行相同的實驗,得到的結果如圖4所示。其中,文件塊大小為48 MB的線性擬合后直線交點處所對應的文件臨界值大小為4.41,很明顯,文件塊大小在64 MB和48 MB兩種情況下,這個臨界點文件大小幾乎相同,由此確定了大小文件的臨界值大小。

  提出一種確定Hadoop平臺下大小文件分界點的方法,該方法首先確定了Hadoop平臺下小文件的訪問時間量化方法,然后通過客戶端隨機訪問HDFS中不同大小數據集的不同訪問時間,并且結合曲線擬合的最小二乘法相關知識,通過實驗找到了大小文件的臨界點。今后的工作將考慮通過對其他相關因子的量化來進一步細化該臨界點的獲取方法。此外,計劃在結合大小文件的臨界點問題的基礎上,針對小文件問題進行進一步研究,并且結合文件合并、文件的分布式索引和相應的緩存預提取等機制來優化Hadoop平臺下海量小文件的讀取和存儲性能。

  參考文獻

  [1] WHITE T. Hadoop: The Definitive Guide, 2nd[M]. California: O′Reilly Media, 2009.

  [2] SHVACHKO K, KUANG H, RADIA S, et al. The hadoop distributed file system[C]. Proceedings of IEEE 26th Symposium on Mass Storage Systems and Technologies, Incline Village, USA: IEEE Press,2010:1-10.

  [3] DEAN J, GHEMAWAT S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM,2008, 51(1):107-111.

  [4] SEHRISH S, MACKEY G, WANG J, et al. MRAP: a novel MapReduce-based framework to support HPC analytics applications with access patterns[C]. Proceedings of the 19th ACM International Symposium on High Performance Distributed Computing. New York, USA: ACM Press, 2010:107-118.

  [5] Liu Xiaojun, Xu Zhengquan, Gu Xin. Study on the small files problem of Hadoop[C]. Proceedings of 2012 IEEE 2nd International Conference on Cloud Computing and Intelligence Systems, Hangzhou, China: IEEE Press,2012:278-281.

  [6] DONG B, QIU J, ZHENG Q, et al. A novel approach to improving the efficiency of storing and accessing small files on hadoop: A case study by PowerPoint files[C]. Proceedings of the IEEE International Conference on Services Computing. Florida, USA: IEEE Press,2010:65-72.

  [7] The small files problem[EB/OL]. http://www.cloudera.com/blog/2009/02/the-smallfiles-problem/,2009.

  [8] Liu X, Han J, Zhong Y, et al. Implementing  WebGIS on Hadoop: a case study of improving small file I/O Performance on HDFS[C]. Proceedings of the IEEE international conference on cluster computing and workshops. New Orleans, USA: IEEE Press,2009:1-8.

  [9] CHANDRASEKAR S, DAKSHINAMURTHY R, SESHAK-UMAR P G, et al. A novel indexing scheme for efficient handling of small files in Hadoop distributed file system[C]. Proceedings of the International Conference on Computer Communication and Informatics. Coimbatore, USA: IEEE Press,2013: 1-8.

  [10] 陳珂,鄒權.融入時間關聯因子曲線擬合的交通流異常挖掘方法[J].計算機工程與設計,2013,34(7):2561-2565.


此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          韩日精品视频| 91久久综合亚洲鲁鲁五月天| 一区二区三区在线不卡| 欧美日韩国产色综合一二三四| 在线观看欧美激情| 欧美一区二区性| 国产一区二区三区久久久久久久久| 免费成人毛片| 欧美wwwwww| 黄色成人在线免费| 亚洲天天影视| 亚洲欧美日韩国产成人精品影院| 亚洲国产精品第一区二区三区| 亚洲精品久久7777| 欧美一区在线看| 91久久国产自产拍夜夜嗨| 久久久久久久久一区二区| 在线精品高清中文字幕| 欧美精品在线极品| 午夜精品久久久久| 欧美电影在线播放| 新67194成人永久网站| 午夜精品在线观看| 久久动漫亚洲| 国产精品视频在线观看| 亚洲欧美综合另类中字| 牛夜精品久久久久久久99黑人| 欧美三级中文字幕在线观看| 国产精品激情av在线播放| 一二三四社区欧美黄| 欧美一区二区三区电影在线观看| 欧美日韩三级| 午夜精品免费视频| 国产精品久久国产精麻豆99网站| 欧美激情成人在线| 亚洲男女毛片无遮挡| 亚洲国产第一页| 国产精品美女午夜av| 亚洲国产精品电影| 禁断一区二区三区在线| 亚洲视频大全| 欧美亚洲专区| 亚久久调教视频| 韩国av一区二区| 美女黄毛**国产精品啪啪| 久久久久久9| 中文国产成人精品久久一| 久久av资源网站| 一区二区三区成人| 国产亚洲精品bv在线观看| 羞羞视频在线观看欧美| 欧美无砖砖区免费| 亚洲激情成人| 亚洲视频在线一区| 国产欧美亚洲一区| 99视频在线精品国自产拍免费观看| 久久尤物电影视频在线观看| 国产日韩欧美一二三区| 午夜精品剧场| 欧美成人免费网| 夜夜嗨一区二区| 久久久一本精品99久久精品66| 欧美区国产区| 一本色道久久综合亚洲精品按摩| 亚洲国产一区二区视频| 欧美婷婷在线| 亚洲综合丁香| 激情懂色av一区av二区av| 久久久噜噜噜久久中文字幕色伊伊| 国产在线精品自拍| 亚洲福利视频专区| 亚洲激情小视频| 亚洲欧美国产高清va在线播| 欧美小视频在线| 亚洲精品久久久久久久久久久久| 午夜久久黄色| 欧美一区二区三区的| 久久亚洲电影| 欧美另类视频在线| 久久久亚洲午夜电影| 亚洲一区二区三区高清不卡| 香蕉成人伊视频在线观看| 欧美日韩国产高清视频| 欧美精品videossex性护士| 午夜激情亚洲| 亚洲在线免费观看| 国产精品视频xxxx| 狼人社综合社区| 欧美性猛交xxxx免费看久久久| 亚洲国产视频一区| 欧美一区日本一区韩国一区| 亚洲欧美美女| 亚洲毛片一区二区| 久久在线视频| 国产精品日韩在线观看| 久久精品国产v日韩v亚洲| 中文国产亚洲喷潮| 欧美激情综合色| 欧美激情视频一区二区三区免费| 国产精品入口66mio| 欧美日本不卡| 亚洲女人av| 在线欧美电影| 久久亚洲精品一区二区| 欧美日韩亚洲一区二区三区在线观看| 欧美韩国日本综合| 亚洲视频视频在线| 亚洲免费高清视频| 欧美丝袜一区二区三区| 在线观看av不卡| 国产精品自拍网站| 国产精品多人| 亚洲男女自偷自拍图片另类| 亚洲精选大片| 国产精品免费区二区三区观看| 欧美一区精品| 久久亚洲电影| 狠狠狠色丁香婷婷综合激情| 亚洲国产日韩美| 欧美区高清在线| 国产视频一区在线观看| 国产精品三区www17con| 一区二区三区波多野结衣在线观看| 欧美国产亚洲精品久久久8v| 亚洲日本乱码在线观看| 一本一本久久a久久精品综合妖精| 欧美一区二区久久久| 欧美精品久久久久久久| 亚洲欧美日韩精品在线| 欧美精品激情在线观看| 欧美日韩在线免费视频| 国产精品久久网站| 欧美亚洲免费电影| 久久人人97超碰人人澡爱香蕉| 国产综合在线视频| 国语自产精品视频在线看抢先版结局| 欧美成人乱码一区二区三区| 欧美激情一区二区在线| 欧美高清在线精品一区| 一区二区日韩免费看| 久久综合中文色婷婷| 国产欧美一区二区精品性| 国产精品美女www爽爽爽视频| 欧美日韩亚洲不卡| 亚洲国产精品黑人久久久| 欧美视频一区| 欧美日韩免费观看一区=区三区| 国产在线精品成人一区二区三区| 欧美国产欧美亚州国产日韩mv天天看完整| 亚洲经典视频在线观看| 国产精品观看| 欧美激情导航| 亚洲免费小视频| 亚洲精品免费一二三区| 亚洲精品美女在线观看| 午夜精品三级视频福利| 亚洲精品日韩精品| 国产精品一区久久久| 亚洲制服欧美中文字幕中文字幕| 亚洲天堂成人在线视频| 美女啪啪无遮挡免费久久网站| 久久综合九色综合网站| 亚洲一区二区在线看| 欧美不卡视频一区发布| 国产精品美女一区二区| 国产精品久久久一区二区三区| 国产一区二区三区久久精品| 欧美午夜宅男影院在线观看| 亚洲人成亚洲人成在线观看| 在线观看视频一区二区| 日韩亚洲欧美一区二区三区| 亚洲国产mv| 久久婷婷麻豆| 欧美激情第六页| 国产精品久久久久久久久免费桃花| 亚洲视频在线播放| 国产美女诱惑一区二区| 欧美大香线蕉线伊人久久国产精品| 日韩亚洲在线| 日韩视频免费大全中文字幕| 欧美岛国在线观看| 欧美日韩大片一区二区三区| 亚洲图片在线| 欧美亚洲视频一区二区| 免费欧美高清视频| 久久九九精品| 欧美日韩免费在线视频| 欧美黑人一区二区三区| 最新亚洲一区| 亚洲日本免费| 一区二区三区在线不卡| 快she精品国产999| 亚洲一区二区三区成人在线视频精品| 黄色成人av网站| 国产欧美69| 欧美一区三区三区高中清蜜桃| 欧美人成在线视频| 欧美1级日本1级| 篠田优中文在线播放第一区| 欧美精品成人| 欧美激情精品久久久久久黑人| aa级大片欧美| 久久久久久久综合色一本| 亚洲一二区在线| 亚洲图片欧美日产| 亚洲六月丁香色婷婷综合久久| 国内精品视频一区| 久久激情久久| 亚洲精品一区二区三区av| 裸体素人女欧美日韩| 亚洲一区二区久久| 欧美激情网友自拍| 在线看视频不卡| 国产亚洲综合精品| 久久久夜色精品亚洲| 亚洲人精品午夜| 亚洲专区在线视频| 国产视频在线观看一区二区三区| 国产午夜精品理论片a级探花| 欧美精品一区在线| 久久久蜜桃一区二区人| 欧美日韩国产色站一区二区三区| 尤物九九久久国产精品的分类| 正在播放亚洲| 国产精品久久久久国产精品日日| 欧美成人精品在线视频| 国内综合精品午夜久久资源| 国产精品免费看久久久香蕉| 亚洲毛片播放| 香蕉久久夜色精品国产| 欧美日韩在线观看视频| 国内精品视频666| 香蕉久久一区二区不卡无毒影院| 国产精品热久久久久夜色精品三区| 美女精品视频一区| 久久综合久色欧美综合狠狠| 亚洲美女在线观看| 国产精品99久久久久久白浆小说| 狠狠88综合久久久久综合网| 国产一区二区三区久久| 欧美一级在线视频| 91久久精品美女高潮| 一区二区毛片| 欧美日韩精品二区第二页| 激情五月综合色婷婷一区二区| 国产精品一区二区你懂的| 欧美www在线| 国产精品热久久久久夜色精品三区| 国产三级欧美三级日产三级99| 国产精品成人一区二区网站软件| 午夜久久久久| 欧美激情精品久久久久久大尺度| 国产欧美欧美| 久久久久成人网| 国产主播在线一区| 欧美日韩免费一区二区三区| 久久久精品午夜少妇| 另类酷文…触手系列精品集v1小说| 亚洲一区二区三区精品在线观看| 国内外成人免费激情在线视频| 欧美一区不卡| 国产精品久久久久免费a∨| 欧美人与性动交α欧美精品济南到| 国模大胆一区二区三区| 日韩视频在线免费观看| 一区二区三区偷拍| 一区二区三区视频免费在线观看| 欧美日韩专区| 国产精品视频一区二区三区| 永久久久久久| 午夜欧美电影在线观看| 亚洲国产精品综合| 中文有码久久| 亚洲在线一区二区三区| 免费观看成人网| 亚洲性xxxx| 亚洲一区二区在线视频| 国产欧美韩日| 久久米奇亚洲| 亚洲免费观看高清完整版在线观看熊| 国产精品成人一区二区三区吃奶| 久久久久国色av免费观看性色| 国产精品久久久久久影院8一贰佰| 欧美日韩中文在线| 玖玖国产精品视频| 欧美亚洲免费高清在线观看| 国产一区二区三区久久久| 在线观看欧美日韩国产| 欧美激情综合亚洲一二区| 国产欧美在线观看一区| 国产精品麻豆va在线播放| 激情一区二区| 久久婷婷成人综合色| 欧美一区视频| 国产精品中文在线| 欧美日韩精品久久久| 91久久精品一区二区三区| 午夜精品久久久久久久99樱桃| 欧美一区二区视频观看视频| 激情五月婷婷综合| 美女日韩在线中文字幕| 亚洲第一网站免费视频| 久久久久天天天天| 国产精品99久久久久久久vr| 亚洲七七久久综合桃花剧情介绍| 欧美一级片久久久久久久| 国产乱人伦精品一区二区| 欧美精品国产一区二区| 久久噜噜亚洲综合| 韩国精品主播一区二区在线观看| 久久久久久网址| 亚洲欧美区自拍先锋| 国产一区二区三区在线观看精品| 久久国产精品毛片| 国语精品中文字幕| 亚洲午夜精品福利| 午夜久久久久久| 亚洲欧美bt| 国产精品三级视频| 美国十次成人| 亚洲精品日韩在线| 狠狠色综合一区二区| 一区二区三区在线看| 欧美不卡一卡二卡免费版| 最新日韩欧美| 欧美日韩国产色站一区二区三区| 久久亚裔精品欧美| 国产精品电影观看|