관리 메뉴

VivaButton

[IT Trend - 빅데이터] 데이터창고(DW) VS 데이터호수(Data Lake) 본문

IT/빅데이터

[IT Trend - 빅데이터] 데이터창고(DW) VS 데이터호수(Data Lake)

비바버튼 2019. 7. 24. 18:11
728x90

전통적인 엔터프라이즈 IT 환경에서는 '데이터 분석'을 하기 위해서는 데이터웨어하우스(DW, Data Warehouse) 시스템이 필요했습니다. 데이터창고(Data Warehouse)라는 이름에서 알수 있듯이 데이터를 저장해두는 것이 DW(Data Warehouse)의 목적이다. 전사적자원관리(ERP), 고객관계관리(CRM), 공급망관리(SCM) 등 기업에서 활용되는 다양한 시스템에서 생성되는 데이터를 DW에 담아두고, 데이터 분석이 필요할 때마다 이 창고의 데이터를 대상으로 분석을 하자는 접근이었다.

DW는 대부분의 기업들이 운영중이다. 비즈니스 인텔리전스(BI)를 구현하기 위해서 DW는 필수적이었기 때문이다. 테라데이타, 싸이베이스, 그린플럼 등은 DW를 위한 전용 데이터베이스 관리시스템(DBMS)를 공급하면서 큰 성장을 이뤘다.

 

데이터 관리 트렌드 변화

나날이 증가하는 방대한 데이터와 새로운 포맷의 데이터들을 수집하고 축적/활용하려는 요구는 계속 증가하고 있습니다. 하지만 전통적인 ETL/DW 방식의 데이터 관리로 이를 해결하는 데에는 한계가 있습니다.

때문에 최근 업계는 정형 데이터로 구성된 전통적인 소스 외에 수많은 비정형 데이터들(소셜 텍스트, 센서 데이터, 이미지, 동영상 등)을 실시간으로 수집, 정제, 통합하여 활용하기 위한 방안으로, 빅데이터 수용이 가능한 Data Lake를 구축하여 원천 데이터 및 분석/서비스 데이터를 준비하는 새로운 방식의 Data Lake 관리 플랫폼에 주목하고 있습니다.

 

Data Lake란?

1. Data Lake에 모든 데이터 보관

2. Data Lake는 모든 데이터 유형을 지원

3. Data Lake는 모든 사용자를 수용

4. Data Lake는 변경하여 사용하기 쉬워야 함.

 

<전제조건>

- 모든 데이터는 소스 데이터에서 적재되고 버려지는 데이터가 없어야 함.(향후 대비)

- 데이터는 Raw 포맷으로 저장되고, 변경되거나 변화된 상태이지 않아야 함.

 

다양한 형태의 원형(raw) 데이터들을 모은 저장소의 집합으로, 숙련된 데이터 사용자들(데이터 엔지니어, 데이터 싸이언티스트, 데이터 분석가, 개발자 등)이 이를 통해 원형 데이터들을 관찰하고 다양하게 가공/분석하여 인사이트를 도출 할 수 있습니다.

하지만 사용자가 Data Lake에서 빅데이터를 분석해 인사이트를 얻거나 의사결정 지원을 위한 리포팅/서비스 애플리케이션을 만들고자 할 경우, 데이터 전처리(수집/정제/변환) 과정에만 작업시간의 대부분(80%)이 소요됩니다.

 

Data Lake와 Data Warehouse의 비교

Data Warehouse VS Data Lake
정형화, 처리완료됨 데이터 정형/비정형/Raw 데이터
변환되어 저장 처리방법 읽으면서 필요에 따라 변환
많은 사용자를 위한 성능 위주 구성 저장공간 저렴한 비용으로 구성
민첩성은 떨어지는 고정된 구성 민첩성 민첩성 우선으로 필요에 따라 재구성이 용이함
성숙됨 보안 발전중
비지니스 전문가 주요 사용자 Data Scientists

 

 

출처 : 

https://byline.network/2018/07/5-17/

 

데이터 창고(DW)는 잊어라...데이터 호수를 맞이하라 - Byline Network

전통적인 엔터프라이즈 IT 환경에서 ‘분석’이라는 것을 하기 위해서는 데이터웨어하우스(DW)라는 시스템이 필요했다. 데이터 창고(Data Warehouse)라는 이름에서 알 수 있듯 데이터를 저장해두는 것이 DW의 목적이다. 전사적자원관리(ERP) 고객관계관리(CRM) 공급망관리(SCM) 등 기업에서 활용되는 다양한 시스템에서 생성되는 데이터를 DW 에 담

byline.network

https://www.samsungsds.com/global/ko/support/insights/data_lake.html

 

Data Lake를 통한 데이터 관리 패러다임의 전환

Data Lake를 통한 데이터 관리 패러다임의 전환

www.samsungsds.com

http://cloudworld.co.kr/down/T3_3%20Cloud%20Infrastructure%20Modernization.pdf

불러오는 중입니다...

 

[주요 참고자료]

  • Gartner IT Glossary > Data Lake
  • IDC's Worldwide Software Taxonomy, 2017
  • Preparing and Architecting for Machine Learning, 2017
  • MarketsandMarkets, 2018