일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- korea
- Коркабулкунӣ барои хориҷиён
- 빅데이터
- Кор барои хориҷиён
- BigData
- Data Lake
- Чои кор барои хоричиён
- အလုပ်အကိုင်
- ကိုရီးယား
- 계정삭제 요청
- java
- Кори нопурра дар Корея
- အယ်လ်ဘာ
- နိုင်ငံခြားသား
- Kotlin
- Ҷойҳо дар Корея
- Job
- Кор дар Корея
- စကားစမြည်ပြောခြင်း
- 비바버튼
- Шуғ дар Корея
- အလုပ်
- Мобиль замима
- Чати тарҷумаи худкор
- Spring boot
- 스프링부트
- Werwingtoepassing
- Hello World
- Mobiele toepassing
- မြန်မာ
- Today
- Total
VivaButton
[IT Trend - 빅데이터] 데이터창고(DW) VS 데이터호수(Data Lake) 본문
전통적인 엔터프라이즈 IT 환경에서는 '데이터 분석'을 하기 위해서는 데이터웨어하우스(DW, Data Warehouse) 시스템이 필요했습니다. 데이터창고(Data Warehouse)라는 이름에서 알수 있듯이 데이터를 저장해두는 것이 DW(Data Warehouse)의 목적이다. 전사적자원관리(ERP), 고객관계관리(CRM), 공급망관리(SCM) 등 기업에서 활용되는 다양한 시스템에서 생성되는 데이터를 DW에 담아두고, 데이터 분석이 필요할 때마다 이 창고의 데이터를 대상으로 분석을 하자는 접근이었다.
DW는 대부분의 기업들이 운영중이다. 비즈니스 인텔리전스(BI)를 구현하기 위해서 DW는 필수적이었기 때문이다. 테라데이타, 싸이베이스, 그린플럼 등은 DW를 위한 전용 데이터베이스 관리시스템(DBMS)를 공급하면서 큰 성장을 이뤘다.
데이터 관리 트렌드 변화
나날이 증가하는 방대한 데이터와 새로운 포맷의 데이터들을 수집하고 축적/활용하려는 요구는 계속 증가하고 있습니다. 하지만 전통적인 ETL/DW 방식의 데이터 관리로 이를 해결하는 데에는 한계가 있습니다.
때문에 최근 업계는 정형 데이터로 구성된 전통적인 소스 외에 수많은 비정형 데이터들(소셜 텍스트, 센서 데이터, 이미지, 동영상 등)을 실시간으로 수집, 정제, 통합하여 활용하기 위한 방안으로, 빅데이터 수용이 가능한 Data Lake를 구축하여 원천 데이터 및 분석/서비스 데이터를 준비하는 새로운 방식의 Data Lake 관리 플랫폼에 주목하고 있습니다.
Data Lake란?
1. Data Lake에 모든 데이터 보관
2. Data Lake는 모든 데이터 유형을 지원
3. Data Lake는 모든 사용자를 수용
4. Data Lake는 변경하여 사용하기 쉬워야 함.
<전제조건>
- 모든 데이터는 소스 데이터에서 적재되고 버려지는 데이터가 없어야 함.(향후 대비)
- 데이터는 Raw 포맷으로 저장되고, 변경되거나 변화된 상태이지 않아야 함.
다양한 형태의 원형(raw) 데이터들을 모은 저장소의 집합으로, 숙련된 데이터 사용자들(데이터 엔지니어, 데이터 싸이언티스트, 데이터 분석가, 개발자 등)이 이를 통해 원형 데이터들을 관찰하고 다양하게 가공/분석하여 인사이트를 도출 할 수 있습니다.
하지만 사용자가 Data Lake에서 빅데이터를 분석해 인사이트를 얻거나 의사결정 지원을 위한 리포팅/서비스 애플리케이션을 만들고자 할 경우, 데이터 전처리(수집/정제/변환) 과정에만 작업시간의 대부분(80%)이 소요됩니다.
Data Lake와 Data Warehouse의 비교
Data Warehouse | VS | Data Lake |
정형화, 처리완료됨 | 데이터 | 정형/비정형/Raw 데이터 |
변환되어 저장 | 처리방법 | 읽으면서 필요에 따라 변환 |
많은 사용자를 위한 성능 위주 구성 | 저장공간 | 저렴한 비용으로 구성 |
민첩성은 떨어지는 고정된 구성 | 민첩성 | 민첩성 우선으로 필요에 따라 재구성이 용이함 |
성숙됨 | 보안 | 발전중 |
비지니스 전문가 | 주요 사용자 | Data Scientists |
출처 :
https://byline.network/2018/07/5-17/
https://www.samsungsds.com/global/ko/support/insights/data_lake.html
http://cloudworld.co.kr/down/T3_3%20Cloud%20Infrastructure%20Modernization.pdf
[주요 참고자료]
- Gartner IT Glossary > Data Lake
- IDC's Worldwide Software Taxonomy, 2017
- Preparing and Architecting for Machine Learning, 2017
- MarketsandMarkets, 2018
'IT > 빅데이터' 카테고리의 다른 글
[웹분석, 웹로그 분석]구글 애널리틱스란? (Google Analytics, GA) (0) | 2019.07.24 |
---|---|
[웹분석, 웹로그 분석]정의와 필요성 (0) | 2019.07.24 |
[빅데이터, AI/머신러닝]직업(포지션) 분류 및 설명 (0) | 2019.05.09 |
마이데이터 (0) | 2018.11.28 |
NoSQL이란? (0) | 2018.08.01 |