본문 바로가기
Study/Knowledge

[DW상식] CDC와 ETL 차이

원천 데이터베이스의 정보를 추출하여 목표시스템에 적재하는 두가지 방법이 있다.

사용목적과 적재수준에 따라 CDC(Change Data Capture)와 ETL(Extract, Transform, Load) 방법을 사용한다.

 

1. CDC 

- 실시간, 준실시간 데이터 적재방법으로, 업무에 필요한 데이터를 일정시간별로 Archive Log를 참고하여 Demon을 뜨는 방식이다. 주로 실시간 시스템에 복제용으로 사용하며, 추출대상인 원천테이블에 Trigger를 걸어 처리할수도 있다.  

- 적재수준은 원천테이블이 아닌, Archive Log를 읽어서 처리하기 때문에,  적재주기에 관계없이 데이터의 변경사항만 적재대상이 된다.

 

2. ETL

- 배치성, 일괄작업성을 지니는 데이터 배치작업이다. 원천데이터에서 필요한 부분을 Extract 추출하여, Transform(클렌징,형식변환,표준화,통합 등)의 비즈니스룰을 적용한후, 특정 시스템에 Load(적재)하는 방식이다.

- 적재는 일일단위 월간단위 등 적재주기에 따라 정해지지만 특정 시스템 운영을 위해 주로 전날의 데이터를 가져오는 형태이며, CDC와 같이 변경이벤트를 감지하지않고,  타겟 데이터의 집합을 만들 원천을 가져오는 것입니다. 

'Study > Knowledge' 카테고리의 다른 글

[네트워크] 3-way / 4-way Handshake 란?  (6) 2020.05.07
[HTTP상식] CDN 이란?  (0) 2020.03.31
[JS] ready와 onolad의 차이  (0) 2020.03.23
[Network] TCP와 UDP 차이점  (0) 2020.03.23
[Network] TCP/IP 4계층 (TCP/IP 4 Layer)  (0) 2020.03.23