미국 베리타스가 자사의 넷백업(NetBackup) 솔루션을 도입한 고객들과의 협조하에 실태를 조사한 분석 리포트「 Data Genomics Index(데이터 게놈 지수) 」를 공개했다.
리포트는 기업 저장소에 보관되어 있는 파일 중 41%는 과거 3년 동안 한번도 갱신되지 않아 데이터 보관에 큰 낭비가 되고 있고, 비즈니스 데이터와 그 보관 비용이 급속도로 확대되고 있기 때문에 기업에 대한 정보 구조의 확립을 어필하고 있다.
구체적으로는 조사 협력 기업의 프라이머리 스토리지에 저장된 수 백억개의 파일에 메타 데이터(파일 유형과 크기, 작성의 경과 시간, 소유자 등)를 수집하고, 그것을 다각도로 분석한 것으로서 조사 대상 업체 수는 밝혀지지 않았으나 폭넓은 국가/업종/규모의 고객이 협력하여 일반적인 기업 환경에 대한 데이터를 획득한 것으로 설명하고 있다.
= 향후 데이터 파일 수는 지수 함수적 증가
내용에 따르면 데이터의 전체 파일 수는 연평균 39.2%의 페이스로 계속 증가하고 있으며 향후로는 더욱 "지수 함수적인 증가"가 예측되어 그에 따른 필요한 스토리지 용량은 파일 수 증가보다 9% 더 높은 페이스로 증가할 것이라 밝히고 있다.
= 개발자 및 압축 파일, 이미지 파일 수가 3분의 1 점유
파일 유형별 분석에서는 스토리지 용량 전체의 3분의 1이 이미지 파일과 압축 파일, 개발자 파일이며 10년전과 비교해 프레젠테이션 파일 수가 크게 감소(- 481%)하고 있는점 등이 확인되고 있다.
한편, 기업의 프라이머리 스토리지 데이터 용량 중 41%는 과거 3년간 한번도 갱신되지 않은 파일(법규제나 컴플라이언스로 보관 의무가 있는 데이터 제외)이 점유하고 있는 것으로 나타났고, 베리타스는 이를 방치된 파일이라 부르며 다음과 같이 설명한다.
"기업은 데이터 보관 비용의 41%를 누구도 갱신하지 않는 파일의 보관에 사용했다. 이것이 이번 조사의 최대 발견이다. 41%의 과제는 예를 들어 10PB의 스토리지 환경을 보유한 기업의 경우 이러한 방치된 파일의 보관에만 연간 20~50만 달러를 사용하고 있을 가능성이 있다"
그러나 이러한 방치된 파일의 내용을 하나씩 확인하고 파기할 것인지 어카이브화 할 것인지 등을 판단하는 것은 비현실적으로서 개인 차원의 파일 정리와 달리 전술한 10PB의 스토리지 환경의 방치된 파일(4.1PB)의 개수는 약 95억개라는 방대한 량으로 그 처리에 큰 제약이 있다.
그에 따라 베리타스는 41%의 과제를 해결하기 위해 기업은 대응하는 데이터의 우선 순위를 결정해야 한다고 설명한다. 방치되는 비율이 높은 파일 타입 및 용량이 큰 파일 타입은 어느 것인지를 식별하면 판단의 기준을 세울 수 있을 것이며 예를 들어 방치된 파일의 20% 정도를 차지하는 오래된 형식의 오피스 문서(프레젠테이션/표 계산/문서/텍스트 파일)를 어카이브로 이행하는 것만으로도 스토리지 비용을 50% 절감할 수 있다는 것.
"41%의 과제 프로젝트를 어디서부터 시작할 것인지는 보관 데이터의 상황을 가시화 하는것부터 출발해야 된다. 베리타스의 정보 거버넌스 제품들은 그런 가시화 능력을 제공할 수 있다"
베리타스는 기업이 데이터에 얽힌 코스트와 리스크를 어떻게 관리하느냐가 정보 구조이며 기업은 그것을 확립해야만 한다는 설명과 함께, "대량의 파일이나 그 속성(메타 데이터)를 분석함으로써 새로운 지식을 만들어 낼 수 있다. 백업이나 어카이브 제품을 통해 베리타스는 그러한 정보에 접속할 수 있는 벤더다"
베리타스는 리포트와 함께 자사의 어카이브 제품의 최신 버전 엔터프라이즈 볼트12(Enterprise Vault 12)와 구조화 데이터 분석 제품의 최신 버전 데이터 인사이트5.1(Data Insight 5.1)을 발표했다. 엔터프라이즈 볼트는 머신 러닝 엔진을 채용한 리뷰 학습 기능, 화상 데이터에 포함되는 텍스트를 OCR에 인덱스화하는 기능 등이 추가되고 있다.