- 相關推薦
探討重復數據刪除技術在中央電臺媒資備份存儲系統中應用
探討重復數據刪除技術在中央電臺媒資備份存儲系統中應用作者/ 劉華
一、引言
2012年初,中央電臺媒資備份存儲系統正式投入使用。經過一年的運行,大量的節目內容,豐富的歷史資料迅速將中央電臺媒資備份存儲系統填滿,嚴重掣肘了節目歸檔、素材入庫等媒資管理工作。近期中央電臺完成了媒資備份存儲系統在線擴容工作。備份存儲的磁盤容量由之前的20T B,增加30TB,總計達到50T B。短短一年時間,磁盤空間需求已經翻番,可以預見,中央電臺媒資備份存儲系統還將面臨磁盤空間短缺的問題。面對日益爆炸的數據增長和由此不斷上升產生的存儲壓力難題,如何控制和有效降低海量數據顯得尤為重要。重復數據刪除技術無疑是“瘦身”的一項不錯選擇。
二、數據冗余
目前,中央電臺媒資備份存儲系統中,存在大量的重復和冗余數據,造成數據冗余的原因可能是人為的:
·為了確保文件的安全性,無意中將同樣的文件存儲了多份;
·不同文件的部分內容重復。
冗余數據占據了大量的存儲空間,降低了存儲空間的利用效率。圖1展示了關于媒資備份存儲系統中重復數據的比例、來源和分析。
更重要的是:這些大量的冗余數據給媒資備份存儲系帶來了大量的問題:
·占用大量存儲空間,降低存儲利用效率;
·增加建設成本;
·增加額外數據管理代價。
三、重復數據刪除概念
通過相關研究和對實際系統的分析發現,在海量數字存儲系統中,存在大量的重復數據和相似數據。通過重復數據刪除技術可以有效去除這些重復數據,對相同數據只存儲一份和只存儲相似數據的不同部分,可以有效利用存儲空間,從而有效降低存儲系統成本。
重復數據刪除是一種數據縮減技術,旨在最小化文件之間的冗余和重復的無損壓縮,并對存儲容量進行有效優化。它通過刪除數據集中重復的數據,只保留其中一份,從而達到消除冗余數據目的。
目前,絕大多數的重復數據刪除算法都工作在二進制數據層次上,通常使用一些數據切分算法,如以整個文件為切分粒度,固定大小的數據切分,或者某些H A S H函數(如R a b i nFingerprinting算法),將每一個帶歸檔的文件切分成若干相互不重疊的數據片段,并把這些數據片段作為邏輯單位進行后續處理和存儲操作。在這些數據片段中,只有不重復的數據片段才真正存儲到存儲設備中,而其他的重復數據片段只需記錄其ID和相應的依賴文件的對應關系即可。
四、S48音頻文件格式
與其他存儲系統中元數據的文件類型、文件格式多樣化不同,中央電臺媒資備份存儲系統中的元數據的文件類型、文件格式只有S48格式的音頻文件。對于重復數據刪除技術而言,我們需要熟悉S48文件,并針對S48文件特點進行重復數據刪除工作。
S48音頻格式是指比特率為256k b i t s/s,采樣率為48000H z的MPEG1-2格式。
幀是MPEG-1處理的最小單元。每個幀又由
1. 幀頭結構
幀頭長4字節,對于固定位率的MP文件,所有幀的幀頭格式一樣其數據結構如下:
typedef FrameHeader{
unsigned int syn:11; //同步信息
unsigned int version:2; //版本
unsigned int layer:2; //層
unsigned int protection:1: //CRC校驗
unsigned int bitrate:4; //位率
unsigned int frequency:2; //頻率
unsagned int padding:1; //幀長調節
unsigned int private:1; //保留字
unsigned int mode:2; //聲道模式
unsagned int mode extension:2;//擴充模式
unsigned int copyright:1; //版權
unsigned int original:1; //原版標志
unsigned int emphasis:2; //強調模式
}HEADER,*LPHEADER;
幀頭4字節使用說明見表1
幀文件尾的最后128個字節用來存放ID3信息,這128個字節使用說明見表2。
五、重復數據刪除設計思路
重復數據刪除的主要思路是通過利用不同層次上的元數據信息,如文件類型、文件格式、應用類型和文件系統元數據等,來指導數據切分算法將文件劃分為更有意義的數據片段。元數據信息分為以下三類:
·應用元數據,如文件類型、文件格式、應用軟件信息等;
·應用或用戶的標記,如用于描述圖片、音頻、視頻等多媒體文件特性的各種標記;
·文件系統級元數據,如目錄條目、文件的INODE信息等。重復數據刪除的主要目標是最大限度減小文件之間的重復和冗余數據。對于中央電臺媒資備份存儲系統而言,我們就需要從以下三方面實現“瘦身”。
1. 數據庫
在對數據庫進行操作過程中重復的數據可能有這樣兩種情況,第一種是兩行記錄完全一樣,第二種是表中只有某些字段一樣。
·兩行記錄完全一樣:
對于表中兩行記錄完全一樣的情況,可以用下面語句獲取到去掉重復數據后的記錄:
select distinct * from 表名
可以將查詢的記錄放到暫時表中,然后再將原來的表記錄刪除,最初將暫時表的數據導回原來的表中。如下:
createTABLE暫時表AS(selectdistinct*from表名);
truncatetable正式表;
insertinto正式表(select*from暫時表);
droptable暫時表;
·表中只有某些字段一樣:
假如想刪除一個表的重復數據,可以先建一個暫時表,將去掉重復數據后的數據導入到暫時表,然后在從暫時表將數據導入正式表中,如下:
insertINTOt_table_bak
selectdistinct*fromt_table;
2. 文件切分
重復數據刪除對于S48音頻文件切分算法的實現基于以下的觀察和思考:許多不同的文件有著相同的音頻內容和不同的TAG描述信息,即相同的歌曲由同一個歌手演唱,但發布在不同專輯,或者相同的內容由不同編輯制作,這樣就有了不同的TAG。因此,一般把每個S48文件劃分成三個部分:幀頭、音頻幀、TAG,其中幀頭和音頻幀被解析和存在元數據服務器數據庫的某張表中,音頻幀作為一個邏輯數據片段存儲,以便進一步被打包成物理對象實際存儲在磁盤設備上。
具有相同音頻的數據內容被切成一個數據片段,只需保存其中一份即可。由于某些HASH函數(如Rabin Fingerprinting算法)可以捕獲到二進制層次上的重復,所以若兩個數據對象具有相同的內容,則可進一步進行重復數據刪除,只存不重復的數據對象。圖3展示了上述過程,并說明在存儲系統中數據組織的層次關系。
3. 方案實施
重復數據刪除主要是針對大規模存儲系統設計,其進程可以部署在不同的應用服務器上,且可作為核心進程運行。因此,其方案需要有較好的可擴展性,易于進行數據容災的部署。
因此在媒資備份存儲系統內部署重復刪除技術至少需要包括應用服務器,文件歸檔服務器,元數據服務器和智能存儲節點等四部分組件實現重復數據刪除和數據存儲。圖4展示存儲系統體系結構。
應用服務器為各種應用的宿主服務器,如WEB服務器,流媒體服務器等部署應用服務端軟件。文件歸檔服務器主要是將文件歸檔到存儲節點,同時部署重復數據刪除軟件的地方。元數據服務器主要對元數據管理、與應用服務器交互、安全機制的部署等服務。智能存儲節點是完全由通用組件,即操作系統、陣列柜、磁帶庫、文件系統等組成。
對于每個存儲文件首先根據其相應的元數據信息,被文件歸檔服務器切分成若干不重疊的數據片段。每一個數據片段將對內容通過某些Hash函數計算得到的簽名作為其標識符,用以判斷當前是否有重復的數據片段存在。不重復的數據片段將被封裝成定長的數據對象,由元數據服務器決定將它們存儲到對應的智能存儲節點中。最后當數據的存儲位置信息將會返回到文件歸檔服務器。文件歸檔服務器可以與智能存儲節點直接進行數據傳輸。這樣應用服務器產生、調用的節目素材等內容就通過入庫、切割、計算、存儲等步驟進行了“瘦身”,最大限度的精減系統內冗余、重復數據的產生,從而實現了重復數據刪除。
六。總結
隨著中央電臺編播系統數字化的發展,節目內容、節目素材將呈現爆炸式增長趨勢,數據總量將急劇膨脹。我們將面臨諸多挑戰,如媒資備份存儲空間不足、成本高昂等問題。本文通過對重復數據刪除技術的探討,采用標準、科學、先進和可靠的技術,闡述了全新的媒資備份存儲系統,為今后的媒資備份存儲系統發展規劃,提供了有效的支持,并確保系統在今后相當長一段時間留有擴充余地。希望能為廣播電視的媒資備份存儲系統建設提供一種新思路。
參考文獻
[1] 袁玉宇 劉川意 郭松柳 . 云計算時代的數據中心。 電子工業出版社。2010
[2] 李棟 數字聲音廣播 北京廣播學院出版社 2001
[3] Dave Reinesl. Our ExpandingD i g i t a l W o r l d:C a n w e c o n t a i n i t?Can we manage it? Intelligent StorageWorkshop(ISW2008),UMN,MN,2008
[4] 張為民 唐劍鋒 羅治國 錢嶺 .云計算:深刻改變未來 . 01版 . 北京 .科學出版社 . 2009
[5] 朱近之 張振倫 金海龍 蔣建華 王春海未來,在云端 微型計算機 2011(2)
【探討重復數據刪除技術在中央電臺媒資備份存儲系統中應用】相關文章:
基于數據庫的多媒體技術在建筑結構與識圖教學中的應用探討08-23
房建施工中鋁模板技術的應用探討08-23
歲月重復的島中央作文03-07
PowerPoint 課件在初中物理教學中的應用探討05-30
中職數學教學中CAI課件應用技巧探討08-18
任務導向法在計算機教學中的應用探討08-17
CAI技術在初中數學教學中的應用08-17
多媒體技術在美術教學中的應用08-17
探討初中語文教學中語文應用能力的培養08-25
生活中的數據08-16