본문 바로가기

Data science/ML

긱뉴스 - 최신 데이터 인프라 이해하기 #1 기본 개념과 단어 설명

1. 데이터 웨어하우스

  • 통합된 분석 보고서 작성을 위해 다양한 소스로부터 데이터를 저장하는 것
  • Production system과의 차이점
    • Production System은 Normalized Schema를 사용하고, small table이 여러 개 존재
    • Data Warehouse는 Dimensional Schema를 사용하고, table을 더 적게, 심플하게 만듦
      • Star Schema: 가운데에 fact table(account라고도 불림), 옆에 dimensional data들이 붙음
      • 분석을 목적으로 하는 데이터 저장소기 때문에 원하는 데이터만 뽑을 수 있게 만들어짐

2. ETL

  • 데이터를 추출, 변환, 적재하는 것(production system에서 data warehouse로 옮기는 것)
  • Extract: Extract data from production system
  • Transform: transform normalized to dimensional schema
  • Load: Load into data warehouse

3. ELT

  • ETL의 문제점: 추출과 변환은 자동화가 되지 않고, 회사마다 변환 방식이 다름-> data warehouse로 옮긴 후 수정해야 하는 일이 너무 많이 생김
  • ELT는 Load(적재) 후 transform(변환)하는 것을 의미
  • 요즘은 ELT를 많이 씀