1. 데이터 웨어하우스
- 통합된 분석 보고서 작성을 위해 다양한 소스로부터 데이터를 저장하는 것
- Production system과의 차이점
- Production System은 Normalized Schema를 사용하고, small table이 여러 개 존재
- Data Warehouse는 Dimensional Schema를 사용하고, table을 더 적게, 심플하게 만듦
- Star Schema: 가운데에 fact table(account라고도 불림), 옆에 dimensional data들이 붙음
- 분석을 목적으로 하는 데이터 저장소기 때문에 원하는 데이터만 뽑을 수 있게 만들어짐
2. ETL
- 데이터를 추출, 변환, 적재하는 것(production system에서 data warehouse로 옮기는 것)
- Extract: Extract data from production system
- Transform: transform normalized to dimensional schema
- Load: Load into data warehouse
3. ELT
- ETL의 문제점: 추출과 변환은 자동화가 되지 않고, 회사마다 변환 방식이 다름-> data warehouse로 옮긴 후 수정해야 하는 일이 너무 많이 생김
- ELT는 Load(적재) 후 transform(변환)하는 것을 의미
- 요즘은 ELT를 많이 씀
'Data science > ML' 카테고리의 다른 글
| 긱뉴스 - 최신 데이터 인프라 이해하기 #6 Kafka, Pulsar, Kinesis (0) | 2022.05.18 |
|---|---|
| 긱뉴스 - 최신 데이터 인프라 이해하기 #5 Spark, Python, Hive (0) | 2022.04.14 |
| 긱뉴스 - 최신 데이터 인프라 이해하기 #4 데이터 모델링과 워크플로우 매니저 (0) | 2022.04.13 |
| 긱뉴스 - 최신 데이터 인프라 이해하기 #3 ETL/ELT 도구들 (0) | 2022.04.13 |
| 긱뉴스 - 최신 데이터 인프라 이해하기 #2 데이터 소스 (0) | 2022.04.13 |